Apa itu Pembelajaran Zero-Shot?

Diterbitkan: 24 Januari 2024
Kontributor: Dave Bergmann

apa yang dimaksud dengan pembelajaran zero shot

Zero-shot learning (ZSL) adalah skenario pembelajaran mesin di mana model AI dilatih untuk mengenali dan mengkategorikan objek atau konsep tanpa harus melihat contoh kategori atau konsep tersebut sebelumnya.

Sebagian besar model deep learning mutakhir untuk klasifikasi atau regresi dilatih melalui pembelajaran terawasi, yang membutuhkan banyak contoh berlabel dari kelas data yang relevan. Model "belajar" dengan membuat prediksi pada dataset pelatihan berlabel; label data menyediakan rentang jawaban yang mungkin dan jawaban yang benar (atau kebenaran dasar) untuk setiap contoh pelatihan. "Belajar" di sini berarti menyesuaikan bobot model untuk meminimalkan perbedaan antara prediksi model dan kebenaran dasar. Proses ini membutuhkan sampel berlabel yang cukup untuk banyak putaran pelatihan dan pembaruan. 

Meskipun pembelajaran yang kuat dan diawasi tidak praktis dalam beberapa skenario dunia nyata. Membuat anotasi pada sampel data dalam jumlah besar memerlukan biaya dan waktu yang lama, dan dalam kasus seperti penyakit langka dan spesies yang baru ditemukan, contohnya mungkin langka atau tidak ada. Pertimbangkan tugas pengenalan gambar: menurut sebuah penelitian, manusia dapat mengenali sekitar 30.000 kategori objek yang dapat dibedakan secara individual.¹ Tidak mungkin, dalam hal waktu, biaya, dan sumber daya komputasi, model kecerdasan buatan dapat mendekati kemampuan manusia dari jarak jauh jika model tersebut harus dilatih secara eksplisit pada data berlabel untuk setiap kelas.

Kebutuhan akan model pembelajaran mesin agar dapat menggeneralisasi dengan cepat ke sejumlah besar kategori semantik dengan overhead pelatihan yang minimal telah memunculkan pembelajaran n-shot: bagian dari pembelajaran mesin yang juga mencakup pembelajaran beberapa langkah  (FSL) dan pembelajaran satu-shot (one -shot learning). pembelajaran tembakan . Pembelajaran beberapa kali biasanya menggunakan pembelajaran transfer dan metode berbasis pembelajaran metauntuk melatih model agar dapat dengan cepat mengenali kelas baru hanya dengan beberapa contoh pelatihan berlabel—atau, dalam pembelajaran sekali pakai, satu contoh berlabel.

Pembelajaran zero-shot, seperti semua pembelajaran n-shot, tidak mengacu pada algoritma atau arsitektur jaringan saraf tertentu, tetapi pada sifat masalah pembelajaran itu sendiri: dalam ZSL, model tidak dilatih pada contoh berlabel apa pun dari kelas yang tidak terlihat yang diminta untuk membuat prediksi pada pasca-pelatihan.

Penyiapan masalah ini tidak memperhitungkan apakah kelas itu ada (meskipun tidak berlabel) dalam data pelatihan. Sebagai contoh, beberapa model bahasa besar (LLM ) sangat cocok untuk tugas-tugas ZSL, karena model-model ini telah dilatih sebelumnya melalui pembelajaran mandiri pada korpus teks yang sangat besar yang mungkin berisi referensi insidental atau pengetahuan tentang kelas-kelas data yang tidak terlihat. Tanpa contoh berlabel yang dapat digunakan, semua metode ZSL bergantung pada penggunaan pengetahuan tambahan untuk membuat prediksi.

Mengingat fleksibilitas dan berbagai kasus penggunaannya, pembelajaran zero-shot telah menjadi area penelitian yang semakin penting dalam ilmu data, terutama di bidang visi komputer dan pemrosesan bahasa alami (NLP).

Pembelajaran zero-shot umum (GSZL)

Dalam pengaturan ZSL konvensional, model diuji pada dataset yang berisi sampel dari kelas data yang tidak terlihat. Meskipun berguna untuk mengembangkan dan memvalidasi metodologi zero-shot, metodologi ini tidak mencerminkan kondisi dunia nyata yang paling umum: generalized zero-shot learning (GSZL) mengacu pada masalah pembelajaran zero-shot spesifik di mana titik data yang ditugaskan untuk diklasifikasikan oleh model dapat termasuk ke dalam kelas yang tidak terlihat atau kelas yang terlihat: kelas yang telah "dipelajari" oleh model dari contoh yang dilabeli.

GSZL harus mengatasi tantangan tambahan: kecenderungan pengklasifikasi untuk membuat prediksi yang bias terhadap kelas-kelas yang telah dilihatnya dalam pelatihan daripada kelas-kelas yang belum pernah dilihatnya. Dengan demikian, GSZL sering membutuhkan teknik tambahan untuk mengurangi bias itu.

Mengapa tata kelola AI adalah keharusan bisnis untuk meningkatkan AI perusahaan

Pelajari tentang hambatan adopsi AI, terutama kurangnya tata kelola AI dan solusi manajemen risiko.

Konten terkait

Daftar untuk mendapatkan panduan tentang model pondasi

Bagaimana cara kerja pembelajaran zero-shot?

Dengan tidak adanya contoh berlabel dari kategori yang dilatih untuk dipelajari oleh model, masalah pembelajaran zero-shot menggunakan informasi tambahan: deskripsi tekstual, atribut, representasi yang disematkan, atau informasi semantik lainnya yang relevan dengan tugas yang sedang dihadapi.

Daripada secara langsung memodelkan batas keputusan antar kelas, teknik pembelajaran zero-shot biasanya menghasilkan vektor probabilitas yang mewakili kemungkinan bahwa input yang diberikan termasuk dalam kelas tertentu. Metode GSZL dapat menambahkan diskriminator awal yang pertama-tama menentukan apakah sampel termasuk dalam kelas yang terlihat atau kelas baru, kemudian melanjutkannya.

Memahami label

Dalam pembelajaran yang diawasi-seperti halnya dalam pembelajaran dengan sedikit tembakan (FSL)-model ini belajar untuk mengenali kelas-kelas yang berbeda dengan secara langsung mengamati satu atau beberapa contoh berlabel dari setiap kelas. Tanpa anotasi eksplisit untuk memandu mereka, pembelajaran zero-shot memerlukan pemahaman yang lebih mendasar mengenai makna label. 

Untuk analogi sederhana, bayangkan seorang anak ingin belajar seperti apa burung itu. Dalam proses yang menyerupai pembelajaran yang diawasi atau FSL, anak belajar dengan melihat gambar berlabel "burung" di buku gambar binatang. Ke depan, dia akan mengenali seekor burung karena menyerupai gambar burung yang sudah dia lihat. Tetapi dalam skenario ZSL, tidak ada contoh berlabel seperti itu yang tersedia. Sebaliknya, anak mungkin membaca entri ensiklopedia tentang burung dan mengetahui bahwa burung adalah hewan berukuran kecil atau sedang yang memiliki bulu, paruh, dan sayap yang dapat terbang di udara. Dia kemudian akan dapat mengenali burung di dunia nyata, meskipun dia belum pernah melihatnya, karena dia telah mempelajari konsep burung.

Seperti yang telah disebutkan sebelumnya, LLM telah menunjukkan potensi alami untuk ZSL, yang berasal dari kemampuan mereka untuk secara mendasar memahami arti kata-kata yang digunakan untuk menamai kelas data.

Pembelajaran transfer

Untuk meminimalkan waktu dan sumber daya yang diperlukan untuk pelatihan, serta jumlah informasi tambahan yang diperlukan untuk mengidentifikasi kelas-kelas yang tidak terlihat, ZSL sering kali memanfaatkan pembelajaran transfer-menggunakankembali model yang telah dilatih untuk tugas baru-daripada melatih model dari awal. 

Pembelajaran transfer digunakan secara menonjol dalam metode ZSL yang mewakili kelas dan sampel sebagai penyematan semantik. Misalnya, model yang melakukan klasifikasi teks zero-shot mungkin menggunakan model berbasis transformator seperti BERT, yang telah dilatih sebelumnya pada kumpulan data bahasa yang sangat besar, untuk mengubah kata menjadi penyematan vektor. Demikian pula, model klasifikasi gambar zero-shot mungkin menggunakan kembali jaringan saraf konvolusional (CNN) terlatih seperti ResNet atau U-Net, karena model tersebut telah mempelajari bobot filter yang kondusif untuk mengidentifikasi fitur gambar penting yang dapat menginformasikan klasifikasi.

Transfer learning sangat penting untuk GSZL, di mana pengetahuan model tentang kelas-kelas yang terlihat dapat digunakan sebagai informasi tambahan tentang kelas-kelas yang tidak terlihat.  Misalnya, bayangkan model deteksi objek telah belajar mengenali beruang grizzly. Alih-alih melatihnya untuk juga mengenali beruang kutub dengan memberinya contoh beruang kutub yang berlabel, beruang kutub dapat dilatih untuk memahami bahwa beruang kutub terlihat seperti beruang grizzly dengan bulu berwarna putih.

Proses mentransfer pengetahuan yang telah dipelajari ke tugas-tugas baru dan kelas yang berbeda juga disebut sebagai adaptasi domain.

Metode berbasis atribut

Metode pembelajaran zero-shot berbasis atribut menggunakan logika yang mirip dengan pembelajaran terawasi konvensional. Daripada secara langsung melatih pengklasifikasi pada contoh berlabel dari setiap kelas data, pengklasifikasi dilatih pada fitur berlabel dari kelas data tertentu, seperti warna, bentuk, atau karakteristik utama lainnya.

Meskipun kelas target tidak secara langsung terlihat dalam pelatihan, label kelas yang tidak terlihat dapat disimpulkan jika atributnya menyerupai kelas atribut yang ada dalam data pelatihan.

Setelah pengklasifikasi mempelajari semua fitur yang relevan, ia dapat menggunakan deskripsi semantik dari kelas yang berbeda. Pendekatan ini sangat berguna ketika contoh berlabel dari kelas target tidak tersedia, tetapi contoh berlabel dari fitur-fitur karakteristiknya relatif berlimpah. Sebagai contoh, seorang model dapat mempelajari "garis-garis" dari gambar harimau dan zebra; dapat mempelajari "kuning" dari gambar burung kenari, dan "serangga terbang" dari gambar lalat. Model ini sekarang dapat melakukan klasifikasi lebah tanpa pemotretan, meskipun tidak ada gambar lebah dalam set pelatihan, karena model ini dapat memahaminya sebagai kombinasi fitur yang telah dipelajari: "serangga terbang berwarna kuningdan bergaris-garis."

Meskipun serbaguna dan berguna dalam situasi yang tepat, metode ZSL berbasis atribut memiliki kelemahan penting:

Mereka bergantung pada asumsi utama bahwa setiap kelas dapat dijelaskan dengan satu vektor atribut, yang tidak selalu demikian. Mall, Hariharan dan Bala mengutip contoh burung Goldfinch Amerika-yang warna dan pola bulunya bervariasi menurut jenis kelamin, usia dan status perkembangbiakan-dan lapangan bulu tangkis luar ruangan, yang sangat bervariasi dalam hal warna, permukaan, dan ada atau tidaknya garis-garis formal^.2
Membuat anotasi contoh-contoh atribut individual dapat berpotensi menghabiskan biaya dan waktu yang sama banyaknya dengan membuat anotasi contoh-contoh kelas tertentu.
Metode berbasis atribut tidak dapat menggeneralisasi ke kelas yang atributnya tidak diketahui atau tidak ada dalam sampel yang tersedia.

Metode berbasis penyematan

Banyak metode ZSL mewakili kelas dan sampel sebagai penyematan semantik: representasi vektor yang dapat digunakan untuk mencerminkan fitur atau makna (dan hubungan antara) titik data yang berbeda. Klasifikasi kemudian ditentukan dengan mengukur kesamaan antara embedding semantik dari sampel yang diberikan dan embeddings dari kelas yang berbeda yang dapat dikategorikan ke dalamnya.

Setelah titik data direpresentasikan sebagai embeddings, klasifikasi ditentukan menggunakan prinsip-prinsip yang mirip dengan algoritma  tetangga K-nearest : beberapa metrik jarak, seperti kesamaan kosinus, jarak Euclidian, atau jarak Wasserstein, digunakan untuk mengukur kedekatan penyisipan titik data. memasukkan data ke embeddings untuk setiap kelas potensial. Semakin dekat (atau lebih mirip) penyematan sampel data tersebut dengan penyematan untuk kelas tertentu, semakin besar kemungkinan sampel tersebut termasuk dalam kelas tersebut.

Penyematan ini dapat dihasilkan dalam beberapa cara. Sebagai contoh:

Model dan algoritme yang telah dilatih sebelumnya seperti BERT, word2vec, atau GloVe (Vektor Global) dapat dengan mudah menghasilkan penyematan vektor untuk kata-kata (seperti nama-nama label kelas).
Demikian juga, jaringan encoder CNN yang sudah dilatih sebelumnya seperti ResNet (atau encoder gambar berbasis transformator seperti ViT) dapat melakukan hal yang sama untuk gambar.
Autoencoder dapat mempelajari representasi laten—pengkodean terkompresi dan berdimensi lebih rendah yang mengisolasi variabel paling berbeda dari masukan data tertentu—dari sampel atau kelas.
Sebagai pengganti pembelajaran transfer, berbagai arsitektur jaringan saraf dapat dilatih dari awal pada data pelatihan yang relevan-seperti sampel kelas data yang relevan yang contoh-contohnya telah diberi label-untuk menghasilkan penyematan yang efektif.

Ruang penyematan bersama
Karena metode berbasis penyematan biasanya memproses informasi tambahan dan penyematan ruang vektor dari berbagai bentuk (atau modalitas) data, seperti penyematan kata yang mendeskripsikan label kelas dan penyematan gambar dari sebuah foto yang mungkin termasuk dalam kelas tersebut. Metode ini membutuhkan cara untuk memfasilitasi perbandingan antara penyematan dari berbagai jenis data.

Agar dapat dibandingkan, penyematan vektor dari berbagai jenis dan ukuran harus dinormalisasi dan diproyeksikan ke ruang semantik dimensi tinggi bersama, yang disebut sebagai ruang penyematan bersama, di mana mereka dapat dibandingkan dalam pengaturan apel-ke-apel. Secara abstrak, cara kerjanya mirip dengan konsep mencari penyebut terkecil untuk membandingkan pecahan yang berbeda. Pemetaan korelatif yang kuat antara berbagai sumber penyematan sangat penting untuk kinerja generalisasi model^.3

Beberapa model pembelajaran zero-shot juga menggunakan pembelajaran kontras untuk menyelaraskan semantic embedding dari model atau algoritma yang berbeda dengan lebih baik: dengan menggunakan pasangan semantic embedding, pembelajaran kontras melatih model untuk meminimalkan jarak antara pasangan "positif" (seperti penyematan gambar anjing dengan kata "anjing") dan memaksimalkan jarak antara pasangan "negatif" (yang tidak cocok).

Pelatihan menyeluruh bersama
Salah satu cara efektif untuk memastikan keselarasan antara penyematan dari model yang berbeda adalah dengan melatih model-model tersebut secara berdampingan. Sebagai contoh, model Contrastive Language-Image Pre-training (CLIP) dari OpenAI dilatih pada kumpulan data yang sangat besar dan tidak berlabel yang terdiri dari lebih dari 400 juta pasangan keterangan gambar yang diambil dari internet.⁴

Pasangan ini digunakan untuk bersama-sama melatih penyandi gambar dan penyandi teks dari awal, menggunakan kehilangan kontras untuk memaksimalkan kemiripan kosinus antara penyematan gambar dan penyematan teks yang sesuai. Hal ini menghasilkan kemampuan alami untuk klasifikasi zero-shot: tanpa penyempurnaan, CLIP menunjukkan performa klasifikasi yang kuat pada 27 dataset klasifikasi gambar yang berbeda.

Metode berbasis generatif

AI generatif menawarkan solusi alternatif untuk masalah pembelajaran zero-shot: menggunakan informasi tambahan untuk menghasilkan data sampel.

Metode berbasis generatif dapat memanfaatkan representasi semantik dari kelas-kelas yang tidak terlihat untuk menghasilkan sampel yang, setelah diberi label, dapat digunakan untuk mengubah masalah pembelajaran menjadi pembelajaran standar yang diawasi. Meskipun sampel yang tidak diberi label (atau representasi dari kelas yang terlihat terkait erat) dapat membantu dalam sintesis sampel, namun dalam pengaturan tanpa pemotretan, proses ini sering kali mengandalkan deskripsi semantik.

LLM dapat mengurangi tenaga kerja yang dibutuhkan untuk menghasilkan deskripsi berkualitas tinggi: dalam makalah rilis untuk model pembuatan teks-ke-gambar DALL-E 3, OpenAI mencatat bahwa teks sintetis bahkan meningkatkan kinerja model relatif terhadap teks “kebenaran dasar”.⁵

Variational autoencoders
Variational autoencoders (VAE) adalah model generatif dengan supervisi mandiri yang mempelajari representasi laten dari data pelatihan sebagai distribusi berparameter dari variabel laten. Dengan kata lain, mereka belajar mengenkode kelas data bukan sebagai penyematan semantik statis, tetapi sebagai distribusi probabilitas dalam ruang laten. Dekoder kemudian dapat digunakan untuk menghasilkan sampel acak dari ruang laten itu. Conditional VAE (CVAE) dapat membatasi sifat-sifat sampel yang disintesis dengan memaksimalkan probabilitas variabel yang dipilih.

Jaringan adversial generatif (GANS)
GAN terdiri dari dua jaringan neural, bersama-sama dilatih dalam permainan zero-sum adversial: generator yang menggunakan atribut semantik dan kebisingan Gaussian untuk mensintesis sampel dan diskriminator yang menentukan apakah sampel itu nyata atau “palsu” (yaitu, disintesis oleh generator). Masukan dari diskriminator digunakan untuk melatih generator sampai diskriminator tidak dapat lagi membedakan antara sampel asli dan palsu. Sejak kertas GAN asli pada tahun 2014, sejumlah modifikasi telah dikembangkan untuk memperbaiki dan menstabilkan proses ini.

VAEGAN
Baik VAE maupun GAN memiliki kelemahan:

VAE stabil, tetapi cenderung menghasilkan gambar yang buram karena sifat alami bagaimana sampel direkonstruksi dari ruang laten.
GAN belajar menghasilkan gambar berkualitas tinggi, tetapi rentan terhadap ketidakstabilan, karena harus menyatukan dua proses pelatihan yang terpisah dan berbeda.

Meskipun sejumlah modifikasi telah dikembangkan untuk menyempurnakan dan menstabilkan kedua proses, namun penggabungan kedua arsitektur model ini telah memberikan hasil yang menjanjikan dalam pengaturan zero-shot^.6

Model bahasa besar (LLM)
LLM juga dapat digunakan untuk mensintesis sampel berlabel: misalnya, menggunakan model autoregresif seperti Llama 2 untuk menghasilkan sampel yang dapat digunakan untuk melatih model bahasa dua arah seperti Sentence-BERT untuk tugas-tugas klasifikasi teks.

Solusi terkait

IBM watsonx.ai

Anda dapat melatih, memvalidasi, menyetel, dan menerapkan AI generatif, model dasar, dan kemampuan machine learning dengan mudah serta membangun aplikasi AI dalam waktu yang singkat dengan data yang sedikit.

Jelajahi watsonx.ai

Layanan konsultasi AI

Menata ulang cara Anda bekerja dengan AI: tim global kami yang beragam dan terdiri dari lebih dari 20.000 pakar AI dapat membantu Anda dengan cepat dan percaya diri dalam merancang dan meningkatkan skala AI serta otomatisasi di seluruh bisnis Anda, bekerja di seluruh teknologi IBM watsonx kami sendiri dan ekosistem mitra yang terbuka untuk menghadirkan model AI apa pun, di cloud mana pun, yang dipandu oleh etika dan kepercayaan.

Jelajahi layanan konsultasi IBM AI

IBM watsonx.data

Skalakan analitik dan AI dengan semua data Anda, di mana pun data itu berada, dengan format terbuka mengakses semua data Anda melalui satu titik masuk dan antarmuka percakapan generatif yang didukung AI untuk menemukan, menambah, dan memvisualisasikan data dengan mudah—dan membuka wawasan data baru.

Jelajahi IBM watsonx.data

Sumber daya pembelajaran zero-shot

Contoh permintaan model pondasi untuk tugas umum

Tidak ada satu cara yang tepat untuk mendorong model pondasi. Tetapi pola yang dapat diandalkan telah ditemukan di akademisi dan industri. Gunakan contoh dalam tutorial ini untuk membangun keterampilan dan intuisi Anda mengenai teknik pemotretan cepat-termasuk untuk tugas tanpa bidikan-melalui eksperimen.

Apa yang dimaksud dengan pembelajaran terawasi mandiri?

Pembelajaran terawasi mandiri digunakan dalam pelatihan beragam arsitektur pembelajaran mendalam yang canggih untuk berbagai tugas, mulai dari model bahasa besar (LLM) berbasis transformer seperti BERT dan GPT hingga model sintesis gambar seperti variational autoencoders (VAE) dan generative adversarial networks (GAN) hingga model visi komputer seperti SimCLR dan Momentum Contrast (MoCo).

Pelatihan Berdorongan Multitask Memungkinkan Generalisasi Tugas Zero-Shot

LLM menunjukkan generalisasi zero-shot yang masuk akal pada serangkaian tugas yang beragam. Telah dihipotesiskan bahwa ini adalah konsekuensi dari pembelajaran multitugas implisit dalam pelatihan. Bisakah generalisasi zero-shot secara langsung diinduksi oleh pembelajaran multitugas eksplisit? Kami menguji pertanyaan ini dalam skala besar.

Ambil langkah selanjutnya

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Jelajahi watsonx.ai

Pesan demo langsung

Catatan kaki

^{Semua tautan berada di luar ibm.com}¹ “Recognition-by-components: A theory of human image understanding,” Psychological Review vol. 94 (hal. 115-147), 1987
² “Zero-shot Learning Using Multimodal Descriptions,” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022.
³ “Data-Efficient Language-Supervised Zero-Shot Learning with Self-Distillation,” arXiv, 18 April 2021.
⁴ “CLIP: Connecting text and images,” OpenAI, 5 Januari 2021.
⁵ “Improving Image Generation with Better Captions,” OpenAI, 2023.
⁶ “Zero-VAE-GAN: Generating Unseen Features for Generalized and Transductive Zero-Shot Learning,” PubMed, 13 Januari 2023.