My IBM Masuk Berlangganan

Beranda

Topics

Data Sintetis

Apa itu data sintetis?

Apa itu data sintetis?

Hasilkan data sintetis dengan solusi IBM Daftar untuk mendapatkan pembaruan AI
Ilustrasi dengan kolase piktogram awan, diagram lingkaran, piktogram grafik
Apa itu data sintetis?

Apa itu data sintetis?

Data sintetis adalah data yang dibuat secara artifisial melalui simulasi komputer atau yang dapat dihasilkan oleh algoritma untuk menggantikan data dunia nyata. Data ini dapat digunakan sebagai alternatif atau pelengkap data dunia nyata ketika data dunia nyata tidak tersedia; data ini juga dapat membantu dalam eksperimen ilmu data.

Data baru ini dapat digunakan sebagai tempat penampung untuk kumpulan data uji dan lebih sering digunakan untuk pelatihan model machine learning karena manfaatnya terhadap privasi data. Salah satu contohnya adalah data sintetis yang digunakan dalam layanan kesehatan untuk melindungi data pasien dan meningkatkan uji klinis. Minat dari sektor perawatan kesehatan berasal dari peraturan kepatuhan seputar data pasien. HIPPA atau Undang-Undang Portabilitas dan Akuntabilitas Asuransi Kesehatan adalah undang-undang federal yang melindungi informasi individu dari diskriminasi, yang dibantu oleh data sintetis dengan membuat data yang dihasilkan AI.

Meskipun datanya dibuat secara artifisial, data sintetis mencerminkan peristiwa dunia nyata secara matematis dan statistik. Teknik ini semakin populer dalam pengembangan lebih lanjut dari pembelajaran mendalam dan banyak contoh penggunaan lainnya. 

Gartner, sebuah perusahaan riset pasar, memperkirakan, pada tahun 2024, 60% data yang digunakan dalam pelatihan model AI akan dihasilkan secara sintetis.

Cara memilih model dasar AI yang tepat

Gunakan kerangka kerja pemilihan model ini untuk memilih model yang paling tepat sambil menyeimbangkan kebutuhan kinerja Anda dengan biaya, risiko, dan kebutuhan penerapan.

Konten terkait Daftar untuk mendapatkan buku putih tentang tata kelola AI
Bagaimana cara kerja data sintetis?

Bagaimana cara kerja data sintetis?

Data sintetis dibuat secara terprogram dengan teknik machine learning untuk mencerminkan sifat statistik data dunia nyata. Data sintetis dapat dihasilkan dalam banyak cara, dengan benar-benar tidak ada batasan ukuran, waktu, atau lokasi. 

Kumpulan data dapat dikumpulkan dari peristiwa atau objek aktual atau orang-orang menggunakan simulasi atau algoritma komputer. Cara untuk menghasilkan data sintetis adalah melalui alat pembuatan data sumber terbuka, yang dapat dibeli atau dibeli. Alat bantu pembuatan data adalah alat yang digunakan untuk membuat data sintetis tersebut. Saat menggunakan alat bantu ini, dengan melalui proses data sintetis, ilmuwan data dapat memodelkan informasi yang sudah dibuat oleh data dunia nyata dan bekerja darinya untuk membuat kumpulan data baru. 

Salah satu contohnya adalah Synthetic Data Vault (SDV), yang dikembangkan di MIT, yang merupakan ekosistem pembuatan data sintetis perpustakaan "yang memungkinkan pengguna untuk dengan mudah mempelajari kumpulan data tabel tunggal,  multi-tabel,  dan deret waktu untuk kemudian menghasilkan Data Sintetis baru yang memiliki format dan properti statistik yang sama dengan kumpulan data asli,” menurut SDV.

Di bawah ini adalah berbagai jenis metode pembuatan data sintetis: 

Variational Auto Encoders (VAE): VAE adalah model generatif di mana pasangan jaringan enkoder-dekoder dilatih untuk merekonstruksi distribusi data pelatihan sedemikian rupa sehingga ruang laten jaringan enkoder menjadi halus.

Video Generative Adversarial Networks (GAN) (8:22): GAN dibuat oleh Ian Goodfellow untuk membuat gambar palsu yang mereplikasi gambar asli. GAN memiliki penerapan yang luas dalam pelatihan model untuk menghasilkan representasi yang realistis dan sangat detail.

GAN adalah alat bantu machine learning yang menggunakan dua neural networks dalam arsitekturnya. Tujuan dari jaringan generator adalah penciptaan hasil palsu. Jika kita menggunakan contoh bunga, dibutuhkan bunga asli acak dan akan menghasilkan bunga buatan sebagai hasilnya.

Data sintetis vs. augmentasi data vs. anonimisasi data

Data sintetis vs. augmentasi data vs. anonimisasi data

Prevalensi data sintetis adalah hal yang agak baru dan tidak bisa disamakan dengan augmentasi data atau anonimisasi data. Mari kita cermati lebih dekat perbedaan di antara berbagai istilah ini.

Augmentasi data adalah teknik yang menggunakan data asli dengan beberapa perubahan kecil dan membuat salinan yang dimodifikasi. Tujuannya adalah untuk meningkatkan kumpulan data secara artifisial. Salah satu penggunaan yang umum adalah dalam augmentasi gambar dengan menggunakan filter, seperti buram dan putar, untuk menciptakan versi baru dari gambar atau bingkai yang ada. Teknik ini, misalnya, akan mencerahkan atau memutar gambar untuk membuat yang baru. 

Anonimisasi data adalah teknik yang membantu Anda melindungi data sensitif, seperti informasi identifikasi pribadi atau data bisnis yang dibatasi untuk menghindari risiko pengungkapan informasi rahasia. Hal ini didefinisikan dalam aturan kebijakan yang diberlakukan untuk aset. Bergantung pada metode anonimisasi data, data disunting, ditutupi, atau diganti dalam pratinjau aset.

Tidak seperti berbagai teknik di atas, data sintetis menggunakan machine learning untuk menghasilkan data baru secara artifisial, bukan mengubah atau memodifikasi data dunia nyata.

Jenis data sintetis

Jenis data sintetis

Data sintetis semakin populer karena keakuratan dan kemampuannya untuk menghasilkan kumpulan data pelatihan yang besar untuk melatih neural networks tanpa perlu repot, tenaga, atau biaya pelabelan data secara manual. Data ini memiliki sejumlah besar kegunaan dan ada beberapa pendekatan untuk dipertimbangkan.

Berikut adalah beberapa jenis data sintetis:

  • Sepenuhnya sintetis: Tidak ada data nyata yang digunakan dengan teknik ini. Program komputer dapat menggunakan karakteristik data dunia nyata meskipun untuk mempersempit dan memperkirakan parameter yang realistis. Biasanya, generator data untuk teknik ini akan mengidentifikasi fungsi kepadatan fitur dalam data nyata dan kemudian memperkirakan parameter. Lalu, data dihasilkan secara acak dan karena itu memberikan perlindungan privasi yang kuat. Data yang dilindungi privasinya hanya ditutupi dalam teknik ini.
  • Sintetis sebagian: Teknik ini hanya mengganti sebagian dari beberapa fitur sensitif yang dipilih dengan nilai sintetis dan menyimpan sebagian data nyata atau data tidak terstruktur yang ada. Teknik ini dapat membantu ketika para ilmuwan data mencoba mengisi kekosongan pada data asli dan dilakukan untuk menjaga privasi pada data yang baru dibuat. Teknik yang digunakan untuk menghasilkan jenis data ini termasuk beberapa teknik berbasis model dan imputasi.
  • Hybrid: Kombinasi data nyata dan sintetis yang mengambil catatan acak dari kumpulan data nyata dan memasangkannya dengan catatan sintetis yang mendekati. Teknik ini memiliki keuntungan dari data sintetis sepenuhnya dan sebagian. Meskipun dengan teknik ini privasi yang baik tetap terjaga, kelemahannya adalah waktu pemrosesan yang lebih lama dan lebih banyak memori.
Manfaat dan tantangan data sintetis

Manfaat dan tantangan data sintetis

Penting untuk melihat manfaat yang menarik dan tantangan dalam penggunaan data sintetis seiring dengan meningkatnya popularitasnya. Kecerdasan buatan, atau spesialis AI, yang berketrampilan tinggi, yang memahami seluk-beluk cara kerja data diperlukan saat menghasilkan data sintetis. Perusahaan atau organisasi yang ingin menggunakan data sintetis juga harus membuat kerangka kerja untuk memeriksa keakuratan proyek pembuatan data mereka. 

  • Kualitas data: Tidak seperti data dunia nyata, data sintetis menghilangkan ketidakakuratan atau kesalahan yang dapat terjadi saat bekerja dengan data yang sedang dikompilasi di dunia nyata. Data sintetis dapat memberikan data berkualitas tinggi dan seimbang jika dilengkapi dengan variabel yang tepat. Data yang dihasilkan secara artifisial juga dapat mengisi missing values dan membuat label yang dapat memungkinkan prediksi yang lebih akurat untuk perusahaan atau bisnis Anda.  

Pelabelan data adalah aspek machine learning yang memakan waktu dan data sintetis menghilangkan langkah yang membosankan itu. Solusi ini adalah penghemat waktu dan pengurang biaya. Data sintetis telah dihasilkan secara sintetis, dan oleh karena itu, sudah diberi label dengan benar. 

  • Skalabilitas: Memanfaatkan machine learning dengan baik membutuhkan data dalam jumlah besar, dan di sinilah data sintetis dapat berperan. Sering kali, sulit untuk mendapatkan skala data yang diperlukan untuk melatih dan menguji model prediktif, di mana data sintetis dapat membantu dan mengisi kesenjangan untuk melengkapi data dunia nyata dan mencapai skala input yang lebih besar. 

Manfaat lain dari data sintetis adalah dapat berguna untuk mendapatkan data pelatihan untuk kasus tepi. Ini adalah peristiwa atau contoh yang jarang terjadi tetapi sangat penting untuk model AI Anda. Kemampuan data sintetis dalam menyediakan data untuk kasus-kasus edge memungkinkan perusahaan untuk berinovasi lebih cepat di berbagai domain karena mereka tidak perlu menunggu titik data baru yang langka untuk dihasilkan.

Ada juga beberapa contoh penggunaan yang mungkin sangat baru sehingga belum ada data nyata yang tersedia, di sinilah data yang dihasilkan AI dapat berperan. Salah satu contohnya adalah mempersiapkan kumpulan data untuk dampak potensial pandemi global di mana data sebenarnya mungkin belum tersedia.

  • Kemudahan penggunaan: Sering kali dengan data dunia nyata, ada beberapa faktor luar yang perlu dipertimbangkan seperti privasi, kesalahan penyaringan, dan kemungkinan harus mengonversi data agar formatnya sesuai. Sedangkan dengan data sintetis lebih mudah untuk menghasilkan dan menghilangkan ketidakakuratan dan duplikat. Langkah ini memastikan semua data memiliki pemformatan dan pelabelan seragam yang diperlukan saat bekerja dengan sejumlah besar data. 
  • Bias: Manfaat dari data sintetis adalah dapat membantu kita mengurangi bias karena dapat membantu kita membuat kumpulan data yang lebih seimbang. Sementara data sintetis didasarkan pada data dunia nyata, model machine learning dapat mengurangi bias yang muncul. 

Perlu disebutkan bahwa data sintetis bukanlah solusi sempurna untuk bias seperti yang terlihat pada penelitian data sintetis ketika berkaitan dengan kedokteran. Penelitian menunjukkan bahwa beberapa kelompok pasien mungkin kurang terwakili dalam data dunia nyata dan oleh karena itu bias dapat terbawa dalam machine learning. 

  • Privasi: Masalah privasi yang ditimbulkan ketika menggunakan data nyata sedikit banyak dihilangkan ketika menggunakan data sintetis dan merupakan manfaat besar bagi perusahaan. Data yang dihasilkan AI bisa seperti data dunia nyata, tetapi tidak dapat ditelusuri kembali ke satu set asli. Teknik ini disebut-sebut sebagai solusi untuk data informasi identifikasi pribadi yang biasanya tidak dapat digunakan. 
Contoh penggunaan industri data sintetis  

Contoh penggunaan industri data sintetis  

  • Penyedia layanan kesehatan: Penggunaan data sintetis melalui sistem AI GAN telah mendapatkan banyak perhatian karena kemampuannya untuk membuat "data palsu dengan ketelitian tinggi," menurut The Lancet. Data sintetis telah mendapatkan popularitas karena dapat berfungsi sebagai metode untuk melindungi privasi pasien dan meningkatkan penelitian klinis tanpa membahayakan rekam medis pasien. “Data sintetis membawa kemampuan untuk membuat catatan pasien palsu dan pencitraan medis palsu yang benar-benar tidak dapat diidentifikasi karena data tersebut tidak berhubungan dengan individu nyata. Dalam arti tertentu, data sintetis adalah turunan dari data asli yang sebenarnya, tetapi tidak ada titik data sintetis yang dapat dikaitkan dengan satu titik data nyata,” kata The Lancet. 
  • Kendaraan otonom: Perusahaan yang memproduksi kendaraan otonom menggunakan data sintetis untuk membantu menguji kendaraan dengan aman melalui simulasi yang realistis. Data sintetis dapat dibuat untuk melatih kendaraan otonom untuk menavigasi di tempat parkir simulasi dan di sekitar pejalan kaki. Teknik ini membantu merevolusi mobil dengan kemudi mandiri dan bisa menjadi salah satu alasan terbesar mengapa mobil ini bisa sampai ke jalan raya di dunia nyata. Cara tradisional dalam mengumpulkan data membutuhkan kecelakaan atau tabrakan di jalan raya yang terjadi secara real-time, tetapi dengan data sintetis, informasi dapat dibuat secara artifisial tanpa harus ada kecelakaan yang terjadi.
  • Perbankan: Sektor keuangan telah menemukan manfaat dari data sintetis berkat kemampuannya untuk mengekspos aktivitas penipuan pada kartu kredit dan debit. Pembayaran kartu kredit yang mungkin terlihat dan bertindak seperti data transaksi normal dapat ditemukan dengan menggunakan teknik data sintetis. Data sintetis dapat digunakan untuk menguji sistem deteksi penipuan guna memastikan sistem tersebut bekerja dengan baik dan/atau menciptakan cara baru dalam pendeteksian. 

Kontribusi IBM untuk data sintetis 

Kontribusi IBM untuk data sintetis 

Meskipun data sintetis telah semakin populer di berbagai industri, namun contoh penggunaannya yang paling menonjol di IBM meliputi:

  • Pelatihan model AI/Machine learning: Data sintetis kian banyak digunakan untuk pelatihan model AI. Contohnya adalah gambar sintetis yang disesuaikan untuk tugas AI tertentu. Gambar buatan dibuat komputer agar terlihat nyata, tetapi tidak memerlukan izin yang diperlukan data dunia nyata. Salah satu cara untuk melakukannya adalah melalui model generatif. Peneliti IBM, bekerja sama dengan rekan-rekan di Boston University, mengembangkan Task2Sim, model AI yang belajar menghasilkan data palsu khusus tugas untuk prapelatihan model klasifikasi gambar. “Keindahan gambar sintetis adalah, Anda bisa mengontrol parameternya—latar belakang, pencahayaan, dan cara objek diposisikan,” kata Rogerio Feris, seorang peneliti IBM yang turut menulis kedua makalah tersebut. “Anda dapat menghasilkan data pelatihan tanpa batas, dan Anda mendapatkan label secara gratis.”
  • Model bahasa: Dalam sebuah makalah yang disorot oleh IBM pada Konferensi Internasional tentang Representasi Pembelajaran pada tahun 2022, para peneliti menunjukkan bahwa “pelatihan awal model bahasa pada bahasa buatan yang didasarkan pada gambar dapat mempermudah penguasaan bahasa dengan sumber daya rendah seperti bahasa Urdu,” menurut postingan blog IBM. “Ketika manusia belajar berbicara, mereka mengasosiasikan kata-kata dengan konsep visual,” kata Yang Zhang, seorang peneliti IBM di MIT-IBM Watson AI Lab. “Kami mencoba meniru ide tersebut di sini.”

 

Solusi IBM

Solusi IBM

watsonx.ai

Bereksperimenlah dengan model dasar dan bangun model machine learning secara otomatis di studio generasi berikutnya untuk pembangun AI.

Jelajahi
Sumber daya

Sumber daya

Lima cara IBM menggunakan data sintetis untuk meningkatkan model AI Task2Sim: Menuju Pelatihan Awal dan Transfer yang Efektif dari Data Sintetis
Ambil langkah selanjutnya

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Jelajahi watsonx.ai Pesan demo langsung