Diterbitkan: 10 November 2023
Kontributor: Dave Bergmann
Pembelajaran penguatan dari masukan manusia (RLHF) adalah teknik machine learning di mana "model penghargaan" dilatih dengan masukan langsung dari manusia, kemudian digunakan untuk mengoptimalkan kinerja dari agen kecerdasan buatan melalui pembelajaran penguatan.
RLHF, yang juga disebut pembelajaran penguatan dari preferensi manusia, secara unik cocok untuk tugas dengan tujuan yang kompleks, tidak terdefinisi dengan baik, atau sulit ditentukan. Sebagai contoh, tidak praktis (atau bahkan tidak mungkin) bagi solusi algoritmik untuk mendefinisikan "lucu" dalam istilah matematika—tetapi mudah bagi manusia untuk menilai lelucon yang dihasilkan oleh model bahasa besar (LLM). Masukan dari manusia tersebut, yang disaring menjadi fungsi penghargaan, kemudian dapat digunakan untuk meningkatkan kemampuan LLM menulis lelucon.
Dalam sebuah makalah tahun 2017, Paul F. Christiano dari OpenAI, bersama dengan peneliti lain dari OpenAI dan DeepMind, memperinci keberhasilan RLHF dalam melatih model AI untuk melakukan tugas-tugas rumit seperti game Atari dan simulasi penggerak robot.1 Melanjutkan terobosan ini, video game terus menjadi ajang pembuktian penting bagi RLHF: pada tahun 2019, sistem AI yang dilatih oleh RLHF, seperti OpenAI Five dan AlphaStar milik DeepMind, masing-masing telah mengalahkan pemain profesional manusia terbaik dalam Dota 22 dan StarCraft3 yang jauh lebih kompleks.
Mungkin yang paling penting, makalah OpenAI tahun 2017 mencatat bahwa metodologinya—khususnya pengenalan algoritma optimasi kebijakan proksimal (PPO) untuk memperbarui bobot model—sangat mengurangi biaya pengumpulan dan penyulingan masukan manusia yang diperlukan. Hal ini membuka jalan bagi integrasi RLHF dengan bidang pemrosesan bahasa alami (NLP), dengan kemajuan yang dihasilkan membantu mengantarkan LLM dan RLHF ke garda depan penelitian AI.
Rilis pertama kode yang merincikan penggunaan RLHF pada model bahasa berasal dari tahun 2019 dari OpenAI4, yang kemudian merilis InstructGPT yang dilatih RLHF pada awal 2022.5 Hal Ini merupakan langkah penting dalam menjembatani kesenjangan antara GPT-3 dan GPT-3.5-Turbo model yang mendukung peluncuran ChatGPT.
RLHF telah digunakan dalam pelatihan LLM yang canggih dari OpenAI, DeepMind, Google6 dan Anthropic.7
Pelajari blok bangunan dan praktik terbaik untuk membantu tim Anda mempercepat AI yang bertanggung jawab.
Daftar untuk mendapatkan panduan tentang model dasar
Secara konseptual, pembelajaran penguatan (RL) bertujuan untuk meniru cara manusia belajar: Agen AI belajar secara holistik melalui uji coba dan kesalahan, termotivasi oleh insentif yang kuat untuk berhasil.
Untuk menerapkan strategi itu, kerangka kerja untuk pembelajaran penguatan terdiri dari komponen-komponen berikut:
Ruang status adalah semua informasi yang tersedia tentang tugas yang ada yang relevan dengan keputusan yang mungkin dibuat oleh agen AI, termasuk variabel yang diketahui dan tidak diketahui. Ruang status biasanya berubah dengan setiap keputusan yang dibuat agen.
Ruang tindakan berisi semua keputusan yang mungkin dibuat agen AI. Dalam konteks permainan papan, misalnya, ruang aksi bersifat diskrit dan terdefinisi dengan baik: terdiri atas semua gerakan hukum yang tersedia untuk pemain AI pada saat tertentu. Dalam konteks pembuatan teks, ruang aksi sangat besar, terdiri dari seluruh “kosakata” token yang tersedia untuk LLM.
Penghargaan adalah ukuran keberhasilan atau kemajuan yang memberikan insentif kepada agen AI. Dalam beberapa kasus, seperti permainan papan, mendefinisikan kesuksesan-dalam hal ini, memenangkan permainan-adalah objektif dan mudah. Namun, ketika definisi "kesuksesan" tidak jelas, merancang fungsi penghargaan yang efektif dapat menjadi tantangan yang signifikan. Dalam kerangka kerja matematis, masukan ini harus diterjemahkan ke dalam sinyal hadiah: kuantifikasi skalar dari masukan positif (atau negatif).
Fungsi penghargaan dapat dilengkapi denganhukuman-imbalan negatif-untuktindakan yang dianggap kontraproduktif terhadap tugas yang sedang dikerjakan. Misalnya, perusahaan mungkin ingin melarang chatbot menggunakan kata-kata kotor atau bahasa vulgar lainnya; model mobil yang dapat menyetir sendiri dapat dihukum karena tabrakan atau menyimpang di luar jalur.
Kebijakan pada dasarnya adalah strategi atau "proses berpikir" yang mendorong perilaku agen AI. Dalam istilah matematika sederhana, kebijakan ("π") adalah sebuah fungsi yang mengambil sebuah keadaan ("s") sebagai input dan mengembalikan sebuah tindakan ("a"): π (s)→a.
Tujuan dari algoritma RL adalah untuk mengoptimalkan sebuah kebijakan untuk menghasilkan imbalan yang maksimal. Dalam pembelajaran penguatan mendalam, kebijakan direpresentasikan sebagai jaringan neural yang terus diperbarui, sesuai dengan fungsi penghargaan, selama proses pelatihan. Agen AI belajar dari pengalaman, seperti halnya manusia.
Meskipun RL konvensional telah mencapai hasil dunia nyata yang mengesankan di banyak bidang, RL dapat berjuang untuk secara efektif membangun fungsi penghargaan untuk tugas-tugas kompleks di mana definisi keberhasilan yang jelas sulit untuk ditetapkan. Keuntungan utama dari RLHF adalah kemampuannya untuk menangkap nuansa dan subjektivitas dengan menggunakan masukan manusia yang positif sebagai pengganti tujuan yang ditentukan secara formal.
Salah satu aplikasi RLHF yang paling menonjol adalah meningkatkan relevansi, akurasi, dan etika LLM—khususnya untuk penggunaannya sebagai chatbot.
LLM, seperti semua model AI generatif, bertujuan untuk mereplikasi distribusi probabilitas data pelatihan. Meskipun kemajuan terbaru telah memajukan penggunaan LLM sebagai mesin untuk chatbot, atau bahkan sebagai mesin penalaran untuk AI tujuan umum, model bahasa ini hanya menggunakan pola yang dipelajari dari data pelatihannya untuk memprediksi kata berikutnya dalam urutan tertentu yang diawali oleh prompt. Pada tingkat dasar, model ini tidak benar-benar menjawab prompt, tetapi hanya menambahkan teks ke dalamnya.
Tanpa instruksi yang sangat spesifik, model bahasa hanya memiliki sedikit kemampuan untuk memahami maksud pengguna. Meskipun rekayasa prompt dapat membantu memberikan konteks yang diperlukan LLM untuk menyesuaikan respons terhadap kebutuhan pengguna, namun tidak praktis jika setiap interaksi dengan chatbot memerlukan rekayasa prompt.
Selain itu, meskipun LLM yang tidak biasa telah dilatih dengan metode konvensional untuk menghasilkan keluaran yang koheren secara tata bahasa, melatih LLM untuk menghasilkan keluaran yang "baik" adalah masalah yang penuh teka-teki. Konsep-konsep seperti kebenaran, bantuan, kreativitas, atau bahkan hal yang membuat potongan kode dapat dieksekusi jauh lebih bergantung pada konteks daripada arti kata dan struktur linguistik.
Untuk membuat model bahasa yang lebih baik dalam interaksi manusia, para ilmuwan data beralih ke pembelajaran penguatan dengan masukan dari manusia. Model InstructGPT yang disempurnakan dengan RLHF mengungguli pendahulunya GPT-3, terutama dalam hal mengikuti instruksi, menjaga akurasi fakta, dan menghindari halusinasi model.5 Demikian juga, penelitian yang dirilis oleh OpenAI pada saat peluncuran GPT-4 menunjukkan bahwa RLHF meningkatkan akurasi hingga dua kali lipat pada pertanyaan-pertanyaan yang bersifat adversarial.8
Manfaat RLHF bahkan dapat menggantikan nilai dataset pelatihan yang lebih besar, sehingga memungkinkan pengembangan model yang lebih efisien: OpenAI mencatat bahwa pemberi labelnya lebih menyukai keluaran dari versi 1.3B-parameter dari InstructGPT daripada keluaran dari versi 175B-parameter dari GPT-3.5
Pelatihan LLM dengan RLHF biasanya berlangsung dalam empat fase:
RLHF umumnya digunakan untuk fine tuning dan mengoptimalkan model yang telah dilatih sebelumnya, bukan sebagai metode pelatihan menyeluruh. Sebagai contoh, InstructGPT menggunakan RLHF untuk meningkatkan GPT yang sudah ada sebelumnya—yaitu, model Transformer Generatif yang Dilatih Sebelumnya. Dalam pengumuman rilisnya untuk InstructGPT, OpenAI menyatakan bahwa "salah satu cara berpikir tentang proses ini adalah bahwa proses ini 'membuka' kemampuan yang telah dimiliki GPT-3, tetapi sulit untuk diperoleh melalui rekayasa yang cepat saja. "5
Pelatihan sebelumnya sejauh ini merupakan fase RLHF yang paling padat sumber daya. OpenAI mencatat bahwa proses pelatihan RLHF untuk InstructGPT memerlukan kurang dari 2 persen komputasi dan data yang diperlukan untuk pelatihan sebelumnya GPT-3.
Sebelum memulai pembelajaran penguatan eksplisit, penyesuaian yang diawasi (SFT) digunakan untuk menyempurnakan model untuk menghasilkan respons dalam format yang diharapkan oleh pengguna.
Seperti yang telah disinggung sebelumnya, proses pelatihan sebelumnya LLM mengoptimalkan model untuk penyelesaian: memprediksi kata-kata berikutnya dalam suatu urutan dimulai dengan permintaan pengguna dengan meniru pola linguistik yang dipelajari selama pelatihan sebelumnya model. Terkadang, LLM tidak akan menyelesaikan urutan sesuai dengan yang diinginkan pengguna: misalnya, jika pengguna meminta, "ajari saya cara membuat resume," LLM mungkin merespons dengan "menggunakan Microsoft Word." Ini adalah cara yang valid untuk melengkapi kalimat, tetapi tidak selaras dengan tujuan pengguna.
Oleh karena itu, SFT menggunakan pembelajaran yang diawasi untuk melatih model agar dapat merespons berbagai jenis prompt dengan tepat. Pakar manusia membuat contoh berlabel, mengikuti format(prompt, respons), untuk mendemonstrasikan cara merespons prompt dalam berbagai contoh penggunaan, seperti menjawab pertanyaan, meringkas, atau menerjemahkan.
Data demonstrasi ini, meskipun sangat kuat, memakan waktu dan mahal untuk menghasilkannya. Daripada membuat contoh baru yang dipesan lebih dahulu, DeepMind memperkenalkan pendekatan "yang menerapkan heuristik penyaringan berdasarkan format dialog tertulis yang umum (gaya 'transkrip wawancara')" untuk mengisolasi pasangan contoh perintah/respons yang sesuai dari dalam dataset MassiveWeb mereka.9
Agar masukan manusia untuk memperkuat fungsi hadiah dalam pembelajaran penguatan, model hadiah diperlukan untuk menerjemahkan preferensi manusia menjadi sinyal hadiah numerik. Merancang model penghargaan yang efektif adalah langkah penting dalam RLHF, karena tidak ada rumus matematika atau logis langsung untuk secara layak mendefinisikan nilai-nilai manusia subjektif.
Tujuan utama dari fase ini adalah untuk menyediakan data pelatihan yang cukup bagi model hadiah, yang terdiri dari masukan langsung dari penilai manusia, untuk membantu model belajar meniru cara preferensi manusia dalam mengalokasikan hadiah ke berbagai jenis respons model. Hal ini memungkinkan pelatihan dilanjutkan secara offline tanpa adanya manusia dalam lingkaran.
Model imbalan harus mengambil urutan teks dan menghasilkan nilai imbalan skalar yang memprediksi, secara numerik, seberapa besar imbalan (atau hukuman) yang akan diberikan oleh pengguna manusia terhadap teks tersebut. Keluaran yang merupakan nilai skalar ini penting agar keluaran model penghargaan dapat diintegrasikan dengan komponen lain dari algoritma RL.
Meskipun mungkin terlihat paling intuitif untuk hanya meminta penilai manusia mengekspresikan pendapat mereka tentang setiap respons model dalam bentuk skalar—seperti menilai respons pada skala satu (terburuk) hingga sepuluh (terbaik)—sangat sulit untuk membuat semua penilai manusia selaras dengan nilai relatif dari nilai yang diberikan, apalagi membuat penilai manusia selaras dengan apa yang merupakan respons "baik" atau "buruk" dalam ruang hampa. Hal ini dapat membuat peringkat skalar langsung menjadi berisik dan sulit untuk dikalibrasi.
Sebaliknya, sistem penilaian biasanya dibangun dengan membandingkan masukan manusia untuk keluaran model yang berbeda. Metode yang umum digunakan adalah dengan meminta pengguna membandingkan dua urutan teks analog—seperti output dari dua model bahasa yang berbeda yang merespons permintaan yang sama—dalam pertandingan head-to-head, kemudian menggunakan sistem peringkat Elo untuk menghasilkan peringkat agregat dari setiap bit teks yang dihasilkan relatif terhadap satu sama lain. Sebuah sistem sederhana dapat memungkinkan pengguna untuk "jempol ke atas" atau "jempol ke bawah" setiap output, dengan output yang kemudian diberi peringkat berdasarkan kesukaan relatif mereka. Sistem yang lebih kompleks mungkin meminta pemberi label untuk memberikan peringkat keseluruhan dan menjawab pertanyaan kategoris tentang kekurangan setiap tanggapan, kemudian secara algoritmik menggabungkan masukan ini menjadi skor kualitas tertimbang.
Hasil dari sistem peringkat mana pun pada akhirnya dinormalisasi menjadi sinyal hadiah skalar untuk menginformasikan pelatihan model hadiah.
Rintangan terakhir dari RLHF adalah menentukan bagaimana—dan seberapa besar—model penghargaan yang harus digunakan untuk memperbarui kebijakan agen AI. Salah satu algoritma yang paling sukses digunakan untuk fungsi penghargaan yang memperbarui model RL adalah optimasi kebijakan proksimal (PPO).
Tidak seperti kebanyakan arsitektur model machine learning dan jaringan neural, yang menggunakan gradient descent untuk meminimalkan fungsi kerugian dan menghasilkan kesalahan sekecil mungkin, algoritma pembelajaran penguatan sering kali menggunakan gradien naik untuk memaksimalkan penghargaan.
Namun, jika fungsi penghargaan digunakan untuk melatih LLM tanpa pagar pembatas, model bahasa dapat secara dramatis mengubah bobotnya hingga menghasilkan omong kosong dalam upaya untuk "mempermainkan" model penghargaan. PPO menyediakan cara yang lebih stabil untuk memperbarui kebijakan agen AI dengan membatasi berapa banyak kebijakan yang dapat diperbarui dalam setiap iterasi pelatihan.
Pertama, salinan model awal dibuat dan bobot yang dapat dilatih dibekukan. Algoritma PPO menghitung rentang [1-ε, 1+ε], di mana ε adalah hiperparameter yang secara kasar menentukan seberapa jauh kebijakan baru (yang diperbarui) diizinkan menyimpang dari kebijakan lama (yang dibekukan). Kemudian, menghitung rasio probabilitas: rasio probabilitas tindakan tertentu yang diambil oleh kebijakan lama vs probabilitas tindakan tersebut diambil oleh kebijakan baru. Jika rasio probabilitas lebih besar dari1+ε (atau di bawah1-ε), besarnya pembaruan kebijakan dapat dipotong untuk mencegah perubahan tajam yang dapat mengganggu kestabilan keseluruhan model.
Pengenalan PPO memberikan alternatif yang menarik untuk pendahulunya, trust region policy optimization (TRPO), yang memberikan manfaat yang sama tetapi lebih rumit dan mahal secara komputasi daripada PPO. Meskipun kerangka kerja optimasi kebijakan lainnya seperti aktor-kritik keuntungan (A2C) juga dapat digunakan, PPO sering kali lebih disukai sebagai metodologi yang sederhana dan hemat biaya.
Meskipun model RLHF telah menunjukkan hasil yang mengesankan dalam melatih agen AI untuk tugas-tugas kompleks mulai dari robotika dan video game hingga NLP, penggunaan RLHF bukannya tanpa keterbatasan.
Jalur pembelajaran ini memberikan gambaran umum tentang pembelajaran penguatan otomatis dan mendemonstrasikan penggunaan Automated AI for Decision-Making API untuk mendukung contoh penggunaan pembelajaran penguatan online secara umum.
Pelajari sejarah dan prinsip-prinsip penting pembelajaran penguatan, kemudian buat demonstrasi sederhana menggunakan teknik " Q learning ". Termasuk implementasi sampel.
Pada bagian pertama dan kedua dari seri tiga bagian ini, kita telah membahas definisi dan contoh penggunaan AI generatif. Bagian ini mengeksplorasi pendekatan yang diambil IBM Consulting ketika memulai proyek AI.
1 "Pembelajaran penguatan mendalam dari preferensi manusia," (tautan berada di luar ibm.com) arXiv, terakhir direvisi 17 Februari 2023
2 "OpenAI Five kalahkan juara dunia Dota 2," (tautan berada di luar ibm.com) OpenAI, 15 April 2019.
3 "AlphaStar: Menguasai permainan strategi real-time StarCraft II," (tautan berada di luar ibm.com) Google DeepMind, 24 Januari 2019
4 "lm-human-preferences,"(tautan berada di luar ibm.com) OpenAI (di GitHub), 2019
5 "Menyelaraskan model bahasa untuk mengikuti instruksi," (tautan berada di luar ibm.com) OpenAI, 27 Januari 2022
6 "Gambaran umum tentang Bard: percobaan awal dengan AI generatif,"(tautan berada di luar ibm.com) Google AI, terakhir diperbarui 19 Oktober 2023
7 "Melatih Asisten yang Bermanfaat dan Tidak Berbahaya dengan Pembelajaran Penguatan dari masukan Manusia," (tautan berada di luar ibm.com) arXiv, 12 Apr 2022
8 "Penelitian: GPT-4," (tautan berada di luar ibm.com) OpenAI, 14 Maret 2023
9 "Meningkatkan Skala Bahasa: Metode, Analisis & Insight dari Pelatihan Gopher," (tautan berada di luar ibm.com) arXiv, terakhir direvisi 21 Jan 2022
10 "AI Konstitusional: Ketidakbahayaan dari Masukan AI," (tautan berada di luar ibm.com) Antropik, 15 Desember 2022
11 " RLAIF: Meningkatkan Pembelajaran Penguatan dari masukan Manusia dengan masukan AI," (tautan berada di luar ibm.com) arXiv, 1 Sep 2023
12 "Mengapa Kita Harus Bersiap: Komentar atas 'Eksperimen' Tay dari Microsoft dan Implikasi yang Lebih Luas," (tautan berada di luar ibm.com) Jurnal ORBIT, 2017