RAG vs. penyetelan

Jejak lampu lalu lintas dekat Big Ben dan Gedung Parlemen di latar belakang saat senja, London, Inggris.

Penyusun

Staff writer

Staff Editor, AI Models

IBM Think

RAG vs. penyetelan

Retrieval augmented generation (RAG) dan fine-tuning adalah dua metode yang dapat digunakan perusahaan untuk mendapatkan nilai lebih dari model bahasa besar (LLM). Keduanya bekerja dengan menyesuaikan LLM dengan contoh penggunaan tertentu, tetapi metodologi di baliknya berbeda secara signifikan.

Meskipun AI generatif telah berkembang pesat sejak awal peluncurannya, tugas menghasilkan tanggapan otomatis secara real time untuk kueri pengguna masih merupakan tantangan besar. Ketika perusahaan berlomba untuk menggabungkan gen AI ke dalam proses mereka untuk mengurangi biaya, merampingkan alur kerja, dan menjaga keunggulan di antara para pesaing, mereka sering kali kesulitan untuk membuat chatbot dan model lain yang dapat menghasilkan jawaban akurat.

Apa perbedaan antara RAG dan fine-tuning?

Perbedaan antara RAG dan fine-tuning adalah bahwa RAG menambah model pemrosesan bahasa alami (NLP) dengan menghubungkannya ke database milik organisasi, sementara fine-tuning mengoptimalkan model pembelajaran mendalam untuk tugas-tugas khusus domain. RAG dan fine-tuning memiliki tujuan yang sama: meningkatkan kinerja model untuk memaksimalkan nilai bagi perusahaan yang menggunakannya.

RAG menggunakan data internal organisasi untuk menambah rekayasa prompt, sementara fine-tuning melatih ulang model pada sekumpulan data eksternal yang terfokus untuk meningkatkan kinerja.

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru  

Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan.

Mengapa RAG dan fine-tuning penting?

RAG memasukkan LLM ke dalam penyimpanan data pribadi saat ini yang seharusnya tidak dapat diakses olehnya. Model RAG dapat menghasilkan jawaban yang lebih akurat dengan tambahan konteks data internal daripada yang bisa dihasilkan tanpa data tersebut.

Model yang disetel dengan baik biasanya mengungguli model dasar yang sesuai, seperti GPT-3 atau GPT-4, ketika menerapkan pelatihannya dengan data spesifik domain. LLM yang telah disetel dengan baik memiliki pemahaman yang lebih baik mengenai domain spesifik dan terminologinya, sehingga memungkinkannya untuk menghasilkan respons yang akurat.

Tanpa akses terus-menerus ke data baru, model bahasa besar mandek. LLM modern adalah neural networks besar yang membutuhkan kumpulan data besar dan sumber daya komputasi untuk melatih. Bahkan vendor LLM terbesar, seperti Meta, Microsoft, dan OpenAI, secara berkala melatih ulang model mereka-yang membuat LLM apa pun hampir langsung menjadi usang begitu dirilis ke publik.

Ketika model tidak dapat belajar dari data baru, mereka seringberhalusinasi atau konfabulasi: sebuah fenomena yang terjadi ketika model gen AI “mengarang” jawaban atas pertanyaan yang tidak dapat mereka jawab secara definitif. Model AI generatif menggunakan algoritma statistik kompleks untuk memprediksi jawaban atas pertanyaan pengguna. Jika pengguna menanyakan sesuatu yang tidak dapat dengan mudah ditemukan oleh AI dalam kumpulan data pelatihannya, yang terbaik yang dapat dilakukan adalah menebak.

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Tonton semua episode Mixture of Experts

Apa yang dimaksud dengan retrieval augmented generation (RAG)?

RAG adalah metode optimalisasi LLM yang diperkenalkan oleh Meta AI dalam makalah tahun 2020 yang berjudul "Retrieval-Augmented Generation for Knowledge-Intensive Tasks".^[1] Ini adalah kerangka arsitektur data yang menghubungkan LLM ke data kepemilikan organisasi, sering disimpan di data lakehouse. Platform data yang sangat luas ini bersifat dinamis dan berisi semua data yang bergerak di seluruh organisasi di semua titik kontak, baik internal maupun eksternal.

Bagaimana cara kerja RAG?

Retrieval augmented generation bekerja dengan menemukan informasi dalam sumber data internal yang relevan dengan kueri pengguna, kemudian menggunakan data tersebut untuk menghasilkan respons yang lebih akurat. Mekanisme pengambilan data "" ditambahkan untuk "meningkatkan" LLM dengan membantunya "menghasilkan" tanggapan yang lebih relevan.

Model RAG menghasilkan jawaban melalui proses empat tahap:

Permintaan: Seorang pengguna mengirimkan kueri, yang menginisialisasi sistem RAG.
Pencarian informasi: Algoritma yang kompleks menyisir basis pengetahuan organisasi untuk mencari informasi yang relevan.
Integrasi: Data yang diambil digabungkan dengan kueri pengguna dan diberikan kepada model RAG untuk dijawab. Hingga saat ini, LLM belum memproses kueri.
Respons: Menggabungkan data yang diambil dengan pelatihannya sendiri dan pengetahuan yang tersimpan, LLM menghasilkan respons yang akurat secara kontekstual.

Saat mencari melalui dokumen internal, sistem RAG menggunakan pencarian semantik. Database vektor mengatur data berdasarkan kesamaan, sehingga memungkinkan pencarian berdasarkan makna, bukan berdasarkan kata kunci. Teknik pencarian semantik memungkinkan algoritme RAG menjangkau kata kunci yang sudah lewat dari maksud kueri dan mengembalikan data yang paling relevan.

Sistem RAG membutuhkan konstruksi dan pemeliharaan arsitektur data yang ekstensif. Insinyur data harus membangun jalur pipa data yang diperlukan untuk menghubungkan rumah danau data organisasi mereka dengan LLM.

Untuk mengonseptualisasikan RAG, bayangkan model gen AI sebagai juru masak rumahan amatir. Mereka tahu dasar-dasar memasak, tetapi tidak memiliki pengetahuan pakar-database milik organisasi-dari seorang koki yang terlatih dalam masakan tertentu. RAG seperti memberi juru masak rumahan buku masak untuk masakan itu. Dengan menggabungkan pengetahuan umum mereka tentang memasak dengan resep-resep dalam buku resep, para juru masak rumahan dapat membuat hidangan khusus masakan favorit mereka dengan mudah.

Proses pengambilan data RAG

Untuk menggunakan RAG secara efektif, teknisi data harus membuat sistem penyimpanan data dan jalur pipa yang memenuhi serangkaian kriteria penting.

Penyimpanan data perusahaan

Untuk meningkatkan fungsi sistem RAG dan memungkinkan pengambilan data secara real-time, data harus diatur dan dipelihara dengan cermat. Metadata data terbaru dan redundansi data minimal membantu memastikan kueri yang efektif.

Penyimpanan dokumen

Membagi data yang tidak terstruktur, seperti dokumen, menjadi potongan-potongan kecil dapat memfasilitasi pengambilan yang lebih efektif. "Memotong" data dengan cara ini memungkinkan sistem RAG mengembalikan data yang lebih akurat sekaligus mengurangi biaya karena hanya bagian yang paling relevan dari dokumen yang akan disertakan dalam permintaan untuk LLM.

Selanjutnya, potongan disematkan — proses yang mengubah teks menjadi angka — ke dalam database vektor.

Perlindungan data

Saluran data harus menyertakan pembatasan keamanan untuk mencegah karyawan mengakses data di luar cakupan peran mereka. Dan setelah adanya undang-undang privasi penting seperti GDPR Uni Eropa, organisasi harus menerapkan perlindungan data yang ketat pada semua data internal. Informasi identifikasi pribadi (PII) tidak boleh disediakan untuk pengguna yang tidak berwenang.

Penyetelan yang cepat

Sistem RAG menggabungkan kueri pengguna dengan data bersumber untuk membuat prompt yang disesuaikan untuk LLM. Proses penyetelan prompt berkelanjutan yang difasilitasi oleh model machine learning lainnya dapat memperkuat kemampuan menjawab pertanyaan sistem RAG dari waktu ke waktu.

Apa itu fine tuning?

Fine-tuning adalah proses melatih ulang model yang telah dilatih sebelumnya pada sekumpulan data pelatihan yang lebih kecil dan lebih terfokus untuk memberikannya pengetahuan spesifik domain. Model ini kemudian menyesuaikan parameternya-pedoman yang mengatur perilakunya-dan penyematannya agar lebih sesuai dengan kumpulan data tertentu.

Bagaimana cara kerja fine tuning?

Fine-tuning bekerja dengan mengekspos model ke kumpulan data contoh berlabel. Model ini meningkatkan pelatihan awalnya saat memperbarui bobot modelnya berdasarkan data baru. Fine-tuning adalah metode pembelajaran yang diawasi, yang berarti data yang digunakan dalam pelatihan diatur dan diberi label. Sebaliknya, sebagian besar model dasar menjalani pembelajaran tanpa pengawasan, di mana data tidak diurutkan—model harus mengkategorikannya sendiri.

Sekali lagi membayangkan model AI gen sebagai juru masak rumahan, fine tuning akan menjadi kursus memasak dalam masakan tertentu. Sebelum mengikuti kursus, juru masak rumahan akan memiliki pemahaman umum tentang dasar-dasar memasak. Namun setelah menjalani pelatihan kuliner dan memperoleh pengetahuan khusus, mereka akan jauh lebih mahir dalam memasak jenis makanan tersebut.

Fine-tuning penuh vs. fine-tuning dengan parameter yang efisien

Model dapat disetel sepenuhnya, yang memperbarui semua parameternya, atau disetel dengan cara yang hanya memperbarui parameter yang paling relevan. Proses yang terakhir ini dikenal sebagai parameter-efficient fine-tuning (PEFT) dan unggul dalam membuat model yang lebih efektif dalam domain tertentu sambil menjaga biaya pelatihan tetap rendah.

Fine-tuning model memerlukan komputasi yang intensif dan memerlukan beberapa GPU bertenaga yang berjalan bersamaan—apalagi memori untuk menyimpan LLM itu sendiri. PEFT memungkinkan pengguna LLM untuk melatih ulang model mereka pada pengaturan perangkat keras yang lebih sederhana sambil mengembalikan peningkatan kinerja yang sebanding dalam contoh penggunaan model yang dimaksudkan, seperti dukungan pelanggan atau analisis sentimen. Fine-tuning terutama unggul dalam membantu model mengatasi bias, yang merupakan kesenjangan antara prediksi model dan hasil dunia nyata yang sebenarnya.

Fine-tuning vs. pelatihan awal berkelanjutan

Prapelatihan terjadi pada awal proses pelatihan. Bobot atau parameter model diinisialisasi secara acak, dan model memulai pelatihan pada kumpulan data awalnya. Prapelatihan berkelanjutan memperkenalkan model terlatih ke kumpulan data baru tanpa label dalam praktik yang dikenal sebagai pembelajaran transfer. Model yang sudah terlatih "mentransfer" apa yang telah dipelajari sejauh ini ke informasi eksternal yang baru.

Sebaliknya, fine tuning menggunakan data berlabel untuk mengasah kinerja model dalam contoh penggunaan yang dipilih. Fine tuning unggul dalam mengasah keahlian model pada tugas-tugas tertentu, sementara prapelatihan berkelanjutan dapat memperdalam keahlian domain model.

Buka kekuatan AI + ML generatif

Pelajari cara menggabungkan AI generatif dan machine learning dengan percaya diri ke dalam bisnis Anda.

Solusi terkait

IBM watsonx.ai

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Temukan watsonx.ai

Solusi kecerdasan buatan (AI)

Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI

Layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI

Sumber daya

Panduan AI Generatif untuk CEO

Pelajari bagaimana CEO dapat menyeimbangkan nilai generatif AI yang dapat diciptakan dengan investasi yang dibutuhkan dan risiko yang ditimbulkannya.

Tingkatkan keterampilan Anda dalam AI generatif

Belajar konsep dasar dan bangun keterampilan Anda dengan laboratorium praktis, kursus, proyek terpandu, uji coba, dan lainnya.

Buka kekuatan AI + ML generatif

Pelajari cara menggabungkan AI generatif dan machine learning dengan percaya diri ke dalam bisnis Anda.

Manfaatkan AI : Meningkatkan ROI dengan gen AI

Ingin mendapatkan laba yang lebih baik atas investasi AI Anda? Pelajari bagaimana meningkatkan AI gen di berbagai bidang utama mendorong perubahan dengan membantu para pemikir terbaik Anda membangun dan memberikan solusi baru yang inovatif.

Aksi AI 2024

Kami menyurvei 2.000 organisasi tentang inisiatif AI mereka untuk mengetahui apa yang berhasil, apa yang tidak, dan cara Anda untuk maju.

Jelajahi IBM Granite

IBM Granite adalah rangkaian model AI kami yang terbuka, berkinerja, dan tepercaya, yang dirancang untuk bisnis dan dioptimalkan untuk menskalakan aplikasi AI Anda. Jelajahi opsi bahasa, kode, deret waktu, dan batasan.

Cara memilih model dasar yang tepat

Pelajari cara memilih model dasar AI yang paling sesuai untuk contoh penggunaan Anda.

Cara berkembang di era baru AI ini dengan kepercayaan dan keyakinan

Selami 3 elemen penting dari strategi AI yang kuat: menciptakan keunggulan kompetitif, meningkatkan skala AI di seluruh bisnis, dan memajukan AI yang dapat dipercaya.

Ambil langkah selanjutnya

Dapatkan akses satu atap ke kemampuan yang mencakup siklus hidup pengembangan AI. Hasilkan solusi AI yang kuat dengan antarmuka ramah pengguna, alur kerja yang efisien, serta akses ke API dan SDK berstandar industri.

Jelajahi watsonx.ai

Pesan demo langsung

Catatan kaki

¹ “Retrieval-Augmented Generation for Knowledge-Intensive NLP Task”, Lewis et al, 12 Apr 2021.