Tren AI terbaru, dipersembahkan oleh para pakar
Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.
Model dasar adalah model kecerdasan buatan (AI) yang dilatih pada kumpulan data yang luas dan besar dan dapat memenuhi berbagai tugas umum. Mereka berfungsi sebagai dasar atau fondasi untuk membuat aplikasi yang lebih khusus.
Fleksibilitas dan ukurannya yang besar membedakannya dari model machine learning tradisional, yang dilatih pada kumpulan data yang lebih kecil untuk menyelesaikan tugas-tugas tertentu, seperti deteksi objek atau perkiraan tren. Sementara itu model dasar menggunakan pembelajaran transfer untuk menerapkan pengetahuan yang dipelajari dari satu tugas ke tugas lainnya. Hal ini membuatnya cocok untuk domain yang lebih luas, termasuk visi komputer, pemrosesan bahasa alami (NLP), dan pengenalan suara.
Para peneliti di Center for Research on Foundation Models dan Institute for Human-Centered Artificial Intelligence Stanford University menciptakan istilah “model dasar” dalam sebuah makalah pada tahun 2021. Mereka mencirikan semua model ini sebagai “pergeseran paradigma” dan menggambarkan alasan di balik penamaan mereka: “[Sebuah] model dasar itu sendiri tidak lengkap, tetapi berfungsi sebagai dasar umum yang digunakan untuk membangun banyak model khusus tugas melalui adaptasi. Kami juga memilih istilah 'fondasi' untuk menyiratkan pentingnya kestabilan, keselamatan, dan keamanan arsitektur: fondasi yang dibangun dengan buruk adalah sumber bencana dan fondasi yang dibangun dengan baik adalah dasar yang dapat diandalkan untuk aplikasi mendatang."1
Membangun model dasar sering melibatkan serangkaian langkah yang mirip dengan pengembangan model machine learning konvensional:
Langkah pertama adalah menyusun kumpulan besar data dari berbagai sumber. Spektrum luas data tidak berlabel dan tidak terstruktur ini memungkinkan model dasar untuk menyimpulkan pola, mengenali hubungan, membedakan konteks, dan menggeneralisasi pengetahuan mereka.
Modalitas mengacu pada jenis data yang dapat diproses oleh model, termasuk audio, gambar, kode perangkat lunak, teks, dan video. Model dasar dapat berupa unimodal atau multimodal. Model unimodal dirancang untuk menangani satu jenis data, seperti menerima input teks dan menghasilkan output teks. Model multimodal dapat menggabungkan informasi dari berbagai modalitas, seperti mengambil prompt teks dan membuat gambar atau menghasilkan transkrip tertulis dari rekaman suara.
Banyak model dasar yang menggunakan arsitektur pembelajaran mendalam yang menggunakan neural networks berlapis-lapis untuk meniru proses pengambilan keputusan otak manusia.
Jenis model pembelajaran mendalam yang dikenal sebagai model transformator telah menjadi arsitektur pilihan untuk model dasar, terutama untuk NLP seperti lini model transformator terlatih generatif (GPT). Berikut adalah ikhtisar singkat tentang arsitektur transformator:
Encoder mengubah urutan input menjadi representasi numerik yang disebut penyematan yang menangkap semantik dan posisi token dalam urutan input.
Mekanisme perhatian diri memungkinkan transformer untuk “memusatkan perhatian mereka” pada token yang paling penting dalam urutan input, terlepas dari posisinya.
Dekoder menggunakan mekanisme perhatian mandiri ini dan penyematan enkoder untuk menghasilkan urutan hasil yang paling mungkin secara statistik.
Model difusi adalah arsitektur lain yang diimplementasikan dalam model dasar. Neural networks berbasis difusi secara bertahap "menyebarkan" data pelatihan dengan ketidakakuratan acak, kemudian belajar membalikkan proses penyebaran tersebut untuk merekonstruksi data asli. Model difusi terutama digunakan dalam model dasar teks ke gambar seperti Imagen dari Google, DALL-E dari OpenAI (dimulai dengan DALL-E 2), dan Stable Diffusion dari Stability AI.
Pelatihan biasanya melibatkan pembelajaran diawasi mandiri, di mana model dasar mempelajari korelasi yang melekat dalam data tidak berlabel. Jadi, pelatihan terjadi selama beberapa iterasi dengan bobot model disesuaikan untuk meminimalkan kesalahan prediksi dan hiperparameter disetel untuk menemukan variabel konfigurasi yang optimal untuk pelatihan. Metode regularisasi juga dapat diterapkan untuk mengoreksi overfitting (ketika model terlalu cocok atau bahkan sama persis dengan data pelatihannya) dan untuk meningkatkan kemampuan model dasar untuk menggeneralisasi.
Kinerja model dasar dapat divalidasi dengan menggunakan tolok ukur standar. Hasil dari penilaian ini dapat menginformasikan peningkatan lebih lanjut atau pengoptimalan kinerja.
Mengembangkan model dasar dari awal bisa menjadi proses yang mahal, menggunakan sumber daya komputasi besar, dan memakan waktu. Itu sebabnya perusahaan mungkin mempertimbangkan untuk mengadaptasi model dasar yang ada untuk kebutuhan khusus mereka. Semua model ini dapat diakses melalui antarmuka pemrograman aplikasi (API) atau menggunakan salinan lokal model.
Berikut adalah dua pendekatan umum pada adaptasi:
Selama penyempurnaan, model dasar terlatih menyesuaikan pengetahuan umumnya dengan tugas tertentu. Ini melibatkan pelatihan lebih lanjut dengan menggunakan pembelajaran diawasi pada kumpulan data berukuran lebih kecil khusus domain atau tugas yang mencakup contoh berlabel. Parameter model diperbarui untuk mengoptimalkan kinerjanya pada tugas.
Karena penyempurnaan mengubah parameter model, kinerja model pada tugas lain mungkin akan terpengaruh. Membuat kumpulan data berlabel juga merupakan proses yang membosankan.
Metode ini memerlukan penyediaan prompt untuk menyesuaikan model dasar dengan tugas tertentu. Prompt berbentuk instruksi terkait tugas atau contoh yang relevan dengan tugas yang memandu model, memungkinkannya untuk mendapatkan konteks dan menghasilkan output yang masuk akal, sebuah kemampuan yang dikenal sebagai pembelajaran dalam konteks.
Meskipun prompt tidak memerlukan pelatihan model atau mengubah parameternya, diperlukan beberapa kali percobaan untuk mendapatkan prompt tepat yang mengondisikan model untuk memahami konteks dan membuat prediksi yang sesuai.
Kemampuan beradaptasi dan sifat umum dari model dasar berarti model ini dapat diimplementasikan untuk berbagai aplikasi di dunia nyata:
Visi komputer
Pemrosesan bahasa alami
Pelayanan Kesehatan
Robotika
Pembuatan kode perangkat lunak
Model dasar dapat digunakan untuk menghasilkan dan mengklasifikasikan gambar dan mendeteksi, mengidentifikasi, dan menggambarkan objek. DALL-E, Imagen, dan Stable Diffusion adalah contoh model dasar teks ke gambar.
Model bahasa besar (LLM) adalah kelas model dasar yang unggul dalam NLP dan natural language understanding (NLU). Kemampuan mereka mencakup antara lain menjawab pertanyaan, meringkas teks, transkripsi, penerjemahan, dan teks video.
Berikut adalah beberapa model dasar populer di ruang NLP:
BERT (Representasi Encoder Dwiarah dari Transformator) adalah salah satu model dasar pertama. Dirilis oleh Google pada tahun 2018, sistem AI sumber terbuka ini hanya dilatih pada korpus teks biasa.2
BLOOM adalah model bahasa multibahasa akses terbuka yang dilatih pada 46 bahasa. Ini adalah hasil dari upaya kolaborasi antara Hugging Face dan BigScience, sebuah komunitas peneliti AI.3
Claude adalah keluarga model dasar dari Anthropic dengan penalaran tingkat lanjut dan kemampuan pemrosesan multibahasa.
GPT, model dasar dari OpenAI, adalah tulang punggung ChatGPT, chatbot AI generatif perusahaan. GPT-3.5 mendukung versi gratis ChatGPT, sedangkan GPT-4 berada di belakang versi premium. Seri GPT-4 juga merupakan model AI generatif yang mendukung asisten AI Copilot dari Microsoft.
Granite adalah seri unggulan IBM dari model dasar LLM berdasarkan arsitektur transformator khusus dekoder. Model obrolan Granite 13b dioptimalkan untuk contoh penggunaan dialog dan bekerja dengan baik dengan agen virtual dan aplikasi obrolan. Sementara model multibahasa Granite dilatih untuk memahami dan menghasilkan teks dalam bahasa Inggris, Jerman, Spanyol, Prancis, dan Portugis.
PaLM 2 adalah model bahasa generasi berikutnya dari Google dengan kemampuan multibahasa dan penalaran yang ditingkatkan.
Dalam bidang perawatan kesehatan, model dasar dapat membantu dalam berbagai tugas. Mulai dari membuat ringkasan kunjungan pasien dan mencari literatur medis, hingga menjawab pertanyaan pasien, mencocokkan pasien dengan uji klinis, dan memfasilitasi penemuan obat. Misalnya, model bahasa Med-PaLM 2 dapat menjawab pertanyaan medis, dan Google sedang merancang versi multimodal yang dapat menggabungkan informasi dari gambar medis.4
Di ranah robotika, model dasar dapat membantu robot dengan cepat beradaptasi dengan lingkungan baru dan menggeneralisasi berbagai tugas, skenario, dan perwujudan mesin. Sebagai contoh, model bahasa multimodal berwujud PaLM-E mentransfer pengetahuan dari domain bahasa dan visual PaLM ke sistem robotika dan dilatih dengan data sensor robot.5
Model dasar dapat membantu menyelesaikan, melakukan debug, menjelaskan, dan menghasilkan kode dalam berbagai bahasa pemrograman. Model dasar teks ke kode ini termasuk Claude dari Anthropic, Codey dan PaM 2 dari Google, dan keluarga model Granite Code dari IBM yang dilatih pada 116 bahasa pemrograman.
Dengan begitu banyak pilihan, bagaimana organisasi dapat memilih model dasar yang tepat untuk pengembangan AI? Berikut adalah enam langkah kerangka kerja pemilihan model AI yang dapat membantu:
Membangun di atas model dasar dapat mengarah pada otomatisasi dan inovasi untuk perusahaan. Berikut adalah keuntungan lain yang dapat diperoleh bisnis dari model dasar:
Time to value dan waktu untuk menskalakan yang lebih cepat: Mengadopsi model yang ada menghilangkan fase pengembangan dan prapelatihan, sehingga perusahaan dapat dengan cepat menyesuaikan dan menerapkan model yang disempurnakan.
Akses ke data: Organisasi tidak perlu mengumpulkan data dalam jumlah besar untuk prapelatihan yang mungkin tidak dapat mereka peroleh.
Akurasi dan kinerja dasar: Model fondasi telah dievaluasi untuk akurasi dan kinerja, menawarkan titik awal berkualitas tinggi.
Penurunan biaya: Perusahaan tidak perlu mengeluarkan sumber daya yang diperlukan untuk membuat model dasar dari awal.
Seperti model AI lainnya, model dasar masih bersaing dengan risiko AI. Ini adalah faktor yang perlu diingat bagi perusahaan yang mempertimbangkan model dasar sebagai teknologi yang mendasari alur kerja internal mereka atau aplikasi AI komersial.
Bias: Sebuah model dapat belajar dari bias manusia yang ada dalam data pelatihan dan bias tersebut dapat mengalir ke output dari model yang telah disempurnakan.
Biaya komputasi: Menggunakan model fondasi yang ada masih membutuhkan memori yang signifikan, perangkat keras canggih seperti GPU (unit pemrosesan grafis) dan sumber daya komputasi lainnya untuk menyempurnakan, menerapkan, dan memelihara.
Privasi data dan kekayaan intelektual: Model dasar dapat dilatih pada data yang diperoleh tanpa persetujuan atau pengetahuan pemiliknya. Berhati-hatilah saat memasukkan data ke dalam algoritma untuk menghindari pelanggaran hak cipta pihak lain atau mengekspos informasi identifikasi pribadi atau informasi rahasia bisnis.
Biaya lingkungan: Pelatihan dan menjalankan model dasar berskala besar melibatkan perhitungan komputasi padat energi yang berkontribusi pada peningkatan emisi karbon dan konsumsi air.
Halusinasi: Memverifikasi hasil model dasar AI penting untuk memastikan mereka menghasilkan output yang benar secara faktual.
Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.
Percepat pengiriman perangkat lunak dengan Bob, mitra AI Anda untuk pengembangan yang aman dan sadar maksud.
Rancang asisten dan agen AI yang dapat diskalakan dengan mudah, otomatiskan tugas berulang, dan sederhanakan proses kompleks dengan IBM®watsonx Orchestrate.
Manfaatkan AI di bisnis Anda dengan perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.
1 On the Opportunities and Risks of Foundation Models, Stanford Center for Research on Foundation Models and Stanford Institute for Human-Centered Artificial Intelligence, 2021
2 Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing, Google Research, 2 November 2018
3 Model Bahasa Multilingual Akses Terbuka Sains Terbuka Besar BigScience, Hugging Face, 6 Juli 2022
4 Med-PaLM, Google Research, Diakses 8 Oktober 2024
5 PaLM-E: An embodied multimodal language model, Google Research, 10 Maret 2023