Retrieval augmented generation (RAG) dan fine-tuning adalah dua metode yang dapat digunakan perusahaan untuk mendapatkan nilai lebih dari model bahasa besar (LLM). Keduanya bekerja dengan menyesuaikan LLM dengan contoh penggunaan tertentu, tetapi metodologi di baliknya berbeda secara signifikan.
Meskipun AI generatif telah berkembang pesat sejak awal peluncurannya, tugas menghasilkan tanggapan otomatis secara real time untuk kueri pengguna masih merupakan tantangan besar. Ketika perusahaan berlomba untuk menggabungkan gen AI ke dalam proses mereka untuk mengurangi biaya, merampingkan alur kerja, dan menjaga keunggulan di antara para pesaing, mereka sering kali kesulitan untuk membuat chatbot dan model lain yang dapat menghasilkan jawaban akurat.
Perbedaan antara RAG dan fine-tuning adalah bahwa RAG menambah model pemrosesan bahasa alami (NLP) dengan menghubungkannya ke database milik organisasi, sementara fine-tuning mengoptimalkan model pembelajaran mendalam untuk tugas-tugas khusus domain. RAG dan fine-tuning memiliki tujuan yang sama: meningkatkan kinerja model untuk memaksimalkan nilai bagi perusahaan yang menggunakannya.
RAG menggunakan data internal organisasi untuk menambah rekayasa prompt, sementara fine-tuning melatih ulang model pada sekumpulan data eksternal yang terfokus untuk meningkatkan kinerja.
RAG memasukkan LLM ke dalam penyimpanan data pribadi saat ini yang seharusnya tidak dapat diakses olehnya. Model RAG dapat menghasilkan jawaban yang lebih akurat dengan tambahan konteks data internal daripada yang bisa dihasilkan tanpa data tersebut.
Model yang disetel dengan baik biasanya mengungguli model dasar yang sesuai, seperti GPT-3 atau GPT-4, ketika menerapkan pelatihannya dengan data spesifik domain. LLM yang telah disetel dengan baik memiliki pemahaman yang lebih baik mengenai domain spesifik dan terminologinya, sehingga memungkinkannya untuk menghasilkan respons yang akurat.
Tanpa akses terus-menerus ke data baru, model bahasa besar mandek. LLM modern adalah neural networks besar yang membutuhkan kumpulan data besar dan sumber daya komputasi untuk melatih. Bahkan vendor LLM terbesar, seperti Meta, Microsoft, dan OpenAI, secara berkala melatih ulang model mereka-yang membuat LLM apa pun hampir langsung menjadi usang begitu dirilis ke publik.
Ketika model tidak dapat belajar dari data baru, mereka seringberhalusinasi atau konfabulasi: sebuah fenomena yang terjadi ketika model gen AI “mengarang” jawaban atas pertanyaan yang tidak dapat mereka jawab secara definitif. Model AI generatif menggunakan algoritma statistik kompleks untuk memprediksi jawaban atas pertanyaan pengguna. Jika pengguna menanyakan sesuatu yang tidak dapat dengan mudah ditemukan oleh AI dalam kumpulan data pelatihannya, yang terbaik yang dapat dilakukan adalah menebak.
RAG adalah metode optimalisasi LLM yang diperkenalkan oleh Meta AI dalam makalah tahun 2020 yang berjudul "Retrieval-Augmented Generation for Knowledge-Intensive Tasks".[1] Ini adalah kerangka arsitektur data yang menghubungkan LLM ke data kepemilikan organisasi, sering disimpan di data lakehouse. Platform data yang sangat luas ini bersifat dinamis dan berisi semua data yang bergerak di seluruh organisasi di semua titik kontak, baik internal maupun eksternal.
Retrieval augmented generation bekerja dengan menemukan informasi dalam sumber data internal yang relevan dengan kueri pengguna, kemudian menggunakan data tersebut untuk menghasilkan respons yang lebih akurat. Mekanisme pengambilan data "" ditambahkan untuk "meningkatkan" LLM dengan membantunya "menghasilkan" tanggapan yang lebih relevan.
Model RAG menghasilkan jawaban melalui proses empat tahap:
Permintaan: Seorang pengguna mengirimkan kueri, yang menginisialisasi sistem RAG.
Pencarian informasi: Algoritma yang kompleks menyisir basis pengetahuan organisasi untuk mencari informasi yang relevan.
Integrasi: Data yang diambil digabungkan dengan kueri pengguna dan diberikan kepada model RAG untuk dijawab. Hingga saat ini, LLM belum memproses kueri.
Respons: Menggabungkan data yang diambil dengan pelatihannya sendiri dan pengetahuan yang tersimpan, LLM menghasilkan respons yang akurat secara kontekstual.
Saat mencari melalui dokumen internal, sistem RAG menggunakan pencarian semantik. Database vektor mengatur data berdasarkan kesamaan, sehingga memungkinkan pencarian berdasarkan makna, bukan berdasarkan kata kunci. Teknik pencarian semantik memungkinkan algoritme RAG menjangkau kata kunci yang sudah lewat dari maksud kueri dan mengembalikan data yang paling relevan.
Sistem RAG membutuhkan konstruksi dan pemeliharaan arsitektur data yang ekstensif. Insinyur data harus membangun jalur pipa data yang diperlukan untuk menghubungkan rumah danau data organisasi mereka dengan LLM.
Untuk mengonseptualisasikan RAG, bayangkan model gen AI sebagai juru masak rumahan amatir. Mereka tahu dasar-dasar memasak, tetapi tidak memiliki pengetahuan pakar-database milik organisasi-dari seorang koki yang terlatih dalam masakan tertentu. RAG seperti memberi juru masak rumahan buku masak untuk masakan itu. Dengan menggabungkan pengetahuan umum mereka tentang memasak dengan resep-resep dalam buku resep, para juru masak rumahan dapat membuat hidangan khusus masakan favorit mereka dengan mudah.
Untuk menggunakan RAG secara efektif, teknisi data harus membuat sistem penyimpanan data dan jalur pipa yang memenuhi serangkaian kriteria penting.
Untuk meningkatkan fungsi sistem RAG dan memungkinkan pengambilan data secara real-time, data harus diatur dan dipelihara dengan cermat. Metadata data terbaru dan redundansi data minimal membantu memastikan kueri yang efektif.
Membagi data yang tidak terstruktur, seperti dokumen, menjadi potongan-potongan kecil dapat memfasilitasi pengambilan yang lebih efektif. "Memotong" data dengan cara ini memungkinkan sistem RAG mengembalikan data yang lebih akurat sekaligus mengurangi biaya karena hanya bagian yang paling relevan dari dokumen yang akan disertakan dalam permintaan untuk LLM.
Selanjutnya, potongan disematkan — proses yang mengubah teks menjadi angka — ke dalam database vektor.
Saluran data harus menyertakan pembatasan keamanan untuk mencegah karyawan mengakses data di luar cakupan peran mereka. Dan setelah adanya undang-undang privasi penting seperti GDPR Uni Eropa, organisasi harus menerapkan perlindungan data yang ketat pada semua data internal. Informasi identifikasi pribadi (PII) tidak boleh disediakan untuk pengguna yang tidak berwenang.
Sistem RAG menggabungkan kueri pengguna dengan data bersumber untuk membuat prompt yang disesuaikan untuk LLM. Proses penyetelan prompt berkelanjutan yang difasilitasi oleh model machine learning lainnya dapat memperkuat kemampuan menjawab pertanyaan sistem RAG dari waktu ke waktu.
Fine-tuning adalah proses melatih ulang model yang telah dilatih sebelumnya pada sekumpulan data pelatihan yang lebih kecil dan lebih terfokus untuk memberikannya pengetahuan spesifik domain. Model ini kemudian menyesuaikan parameternya-pedoman yang mengatur perilakunya-dan penyematannya agar lebih sesuai dengan kumpulan data tertentu.
Fine-tuning bekerja dengan mengekspos model ke kumpulan data contoh berlabel. Model ini meningkatkan pelatihan awalnya saat memperbarui bobot modelnya berdasarkan data baru. Fine-tuning adalah metode pembelajaran yang diawasi, yang berarti data yang digunakan dalam pelatihan diatur dan diberi label. Sebaliknya, sebagian besar model dasar menjalani pembelajaran tanpa pengawasan, di mana data tidak diurutkan—model harus mengkategorikannya sendiri.
Sekali lagi membayangkan model AI gen sebagai juru masak rumahan, fine tuning akan menjadi kursus memasak dalam masakan tertentu. Sebelum mengikuti kursus, juru masak rumahan akan memiliki pemahaman umum tentang dasar-dasar memasak. Namun setelah menjalani pelatihan kuliner dan memperoleh pengetahuan khusus, mereka akan jauh lebih mahir dalam memasak jenis makanan tersebut.
Model dapat disetel sepenuhnya, yang memperbarui semua parameternya, atau disetel dengan cara yang hanya memperbarui parameter yang paling relevan. Proses yang terakhir ini dikenal sebagai parameter-efficient fine-tuning (PEFT) dan unggul dalam membuat model yang lebih efektif dalam domain tertentu sambil menjaga biaya pelatihan tetap rendah.
Fine-tuning model memerlukan komputasi yang intensif dan memerlukan beberapa GPU bertenaga yang berjalan bersamaan—apalagi memori untuk menyimpan LLM itu sendiri. PEFT memungkinkan pengguna LLM untuk melatih ulang model mereka pada pengaturan perangkat keras yang lebih sederhana sambil mengembalikan peningkatan kinerja yang sebanding dalam contoh penggunaan model yang dimaksudkan, seperti dukungan pelanggan atau analisis sentimen. Fine-tuning terutama unggul dalam membantu model mengatasi bias, yang merupakan kesenjangan antara prediksi model dan hasil dunia nyata yang sebenarnya.
Prapelatihan terjadi pada awal proses pelatihan. Bobot atau parameter model diinisialisasi secara acak, dan model memulai pelatihan pada kumpulan data awalnya. Prapelatihan berkelanjutan memperkenalkan model terlatih ke kumpulan data baru tanpa label dalam praktik yang dikenal sebagai pembelajaran transfer. Model yang sudah terlatih "mentransfer" apa yang telah dipelajari sejauh ini ke informasi eksternal yang baru.
Sebaliknya, fine tuning menggunakan data berlabel untuk mengasah kinerja model dalam contoh penggunaan yang dipilih. Fine tuning unggul dalam mengasah keahlian model pada tugas-tugas tertentu, sementara prapelatihan berkelanjutan dapat memperdalam keahlian domain model.
Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.
Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.
Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.
1 “Retrieval-Augmented Generation for Knowledge-Intensive NLP Task”, Lewis et al, 12 Apr 2021.