Data sintetis dibuat secara terprogram dengan teknik machine learning untuk mencerminkan sifat statistik data dunia nyata. Data sintetis dapat dihasilkan dalam banyak cara, dengan benar-benar tidak ada batasan ukuran, waktu, atau lokasi.
Kumpulan data dapat dikumpulkan dari peristiwa atau objek aktual atau orang-orang menggunakan simulasi atau algoritma komputer. Cara untuk menghasilkan data sintetis adalah melalui alat pembuatan data sumber terbuka, yang dapat dibeli atau dibeli. Alat bantu pembuatan data adalah alat yang digunakan untuk membuat data sintetis tersebut. Saat menggunakan alat bantu ini, dengan melalui proses data sintetis, ilmuwan data dapat memodelkan informasi yang sudah dibuat oleh data dunia nyata dan bekerja darinya untuk membuat kumpulan data baru.
Salah satu contohnya adalah Synthetic Data Vault (SDV), yang dikembangkan di MIT, yang merupakan ekosistem pembuatan data sintetis perpustakaan "yang memungkinkan pengguna untuk dengan mudah mempelajari kumpulan data tabel tunggal, multi-tabel, dan deret waktu untuk kemudian menghasilkan Data Sintetis baru yang memiliki format dan properti statistik yang sama dengan kumpulan data asli,” menurut SDV.
Di bawah ini adalah berbagai jenis metode pembuatan data sintetis:
Variational Auto Encoders (VAE): VAE adalah model generatif di mana pasangan jaringan enkoder-dekoder dilatih untuk merekonstruksi distribusi data pelatihan sedemikian rupa sehingga ruang laten jaringan enkoder menjadi halus.
Video Generative Adversarial Networks (GAN) (8:22): GAN dibuat oleh Ian Goodfellow untuk membuat gambar palsu yang mereplikasi gambar asli. GAN memiliki penerapan yang luas dalam pelatihan model untuk menghasilkan representasi yang realistis dan sangat detail.
GAN adalah alat bantu machine learning yang menggunakan dua neural networks dalam arsitekturnya. Tujuan dari jaringan generator adalah penciptaan hasil palsu. Jika kita menggunakan contoh bunga, dibutuhkan bunga asli acak dan akan menghasilkan bunga buatan sebagai hasilnya.