Apa itu Pembelajaran Penguatan Dari Masukan Manusia (RLHF)?

Diterbitkan: 10 November 2023
Kontributor: Dave Bergmann

Apa itu RLHF?

Pembelajaran penguatan dari masukan manusia (RLHF) adalah teknik machine learning di mana "model penghargaan" dilatih dengan masukan langsung dari manusia, kemudian digunakan untuk mengoptimalkan kinerja dari agen kecerdasan buatan melalui pembelajaran penguatan.

RLHF, yang juga disebut pembelajaran penguatan dari preferensi manusia, secara unik cocok untuk tugas dengan tujuan yang kompleks, tidak terdefinisi dengan baik, atau sulit ditentukan. Sebagai contoh, tidak praktis (atau bahkan tidak mungkin) bagi solusi algoritmik untuk mendefinisikan "lucu" dalam istilah matematika—tetapi mudah bagi manusia untuk menilai lelucon yang dihasilkan oleh model bahasa besar (LLM). Masukan dari manusia tersebut, yang disaring menjadi fungsi penghargaan, kemudian dapat digunakan untuk meningkatkan kemampuan LLM menulis lelucon.

Dalam sebuah makalah tahun 2017, Paul F. Christiano dari OpenAI, bersama dengan peneliti lain dari OpenAI dan DeepMind, memperinci keberhasilan RLHF dalam melatih model AI untuk melakukan tugas-tugas rumit seperti game Atari dan simulasi penggerak robot^.1Melanjutkan terobosan ini, video game terus menjadi ajang pembuktian penting bagi RLHF: pada tahun 2019, sistem AI yang dilatih oleh RLHF, seperti OpenAI Five dan AlphaStar milik DeepMind, masing-masing telah mengalahkan pemain profesional manusia terbaik dalam Dota 2² dan StarCraft³ yang jauh lebih kompleks.

Mungkin yang paling penting, makalah OpenAI tahun 2017 mencatat bahwa metodologinya—khususnya pengenalan algoritma optimasi kebijakan proksimal (PPO) untuk memperbarui bobot model—sangat mengurangi biaya pengumpulan dan penyulingan masukan manusia yang diperlukan. Hal ini membuka jalan bagi integrasi RLHF dengan bidang pemrosesan bahasa alami (NLP), dengan kemajuan yang dihasilkan membantu mengantarkan LLM dan RLHF ke garda depan penelitian AI.

Rilis pertama kode yang merincikan penggunaan RLHF pada model bahasa berasal dari tahun 2019 dari OpenAI⁴, yang kemudian merilis InstructGPT yang dilatih RLHF pada awal 2022.⁵ Hal Ini merupakan langkah penting dalam menjembatani kesenjangan antara GPT-3 dan GPT-3.5-Turbo model yang mendukung peluncuran ChatGPT.

RLHF telah digunakan dalam pelatihan LLM yang canggih dari OpenAI, DeepMind, Google⁶ dan Anthropic.⁷

Bangun alur kerja AI yang bertanggung jawab dengan tata kelola AI

Pelajari blok bangunan dan praktik terbaik untuk membantu tim Anda mempercepat AI yang bertanggung jawab.

Konten terkait

Daftar untuk mendapatkan panduan tentang model dasar

Cara kerja pembelajaran penguatan

Secara konseptual, pembelajaran penguatan (RL) bertujuan untuk meniru cara manusia belajar: Agen AI belajar secara holistik melalui uji coba dan kesalahan, termotivasi oleh insentif yang kuat untuk berhasil.

Untuk menerapkan strategi itu, kerangka kerja untuk pembelajaran penguatan terdiri dari komponen-komponen berikut:

Ruang status

Ruang status adalah semua informasi yang tersedia tentang tugas yang ada yang relevan dengan keputusan yang mungkin dibuat oleh agen AI, termasuk variabel yang diketahui dan tidak diketahui. Ruang status biasanya berubah dengan setiap keputusan yang dibuat agen.

Ruang aksi

Ruang tindakan berisi semua keputusan yang mungkin dibuat agen AI. Dalam konteks permainan papan, misalnya, ruang aksi bersifat diskrit dan terdefinisi dengan baik: terdiri atas semua gerakan hukum yang tersedia untuk pemain AI pada saat tertentu. Dalam konteks pembuatan teks, ruang aksi sangat besar, terdiri dari seluruh “kosakata” token yang tersedia untuk LLM.

Fungsi penghargaan

Penghargaan adalah ukuran keberhasilan atau kemajuan yang memberikan insentif kepada agen AI. Dalam beberapa kasus, seperti permainan papan, mendefinisikan kesuksesan-dalam hal ini, memenangkan permainan-adalah objektif dan mudah. Namun, ketika definisi "kesuksesan" tidak jelas, merancang fungsi penghargaan yang efektif dapat menjadi tantangan yang signifikan. Dalam kerangka kerja matematis, masukan ini harus diterjemahkan ke dalam sinyal hadiah: kuantifikasi skalar dari masukan positif (atau negatif).

Kendala

Fungsi penghargaan dapat dilengkapi denganhukuman-imbalan negatif-untuktindakan yang dianggap kontraproduktif terhadap tugas yang sedang dikerjakan. Misalnya, perusahaan mungkin ingin melarang chatbot menggunakan kata-kata kotor atau bahasa vulgar lainnya; model mobil yang dapat menyetir sendiri dapat dihukum karena tabrakan atau menyimpang di luar jalur.

Kebijakan

Kebijakan pada dasarnya adalah strategi atau "proses berpikir" yang mendorong perilaku agen AI. Dalam istilah matematika sederhana, kebijakan ("π") adalah sebuah fungsi yang mengambil sebuah keadaan ("s") sebagai input dan mengembalikan sebuah tindakan ("a"): π (s)→a.

Tujuan dari algoritma RL adalah untuk mengoptimalkan sebuah kebijakan untuk menghasilkan imbalan yang maksimal. Dalam pembelajaran penguatan mendalam, kebijakan direpresentasikan sebagai jaringan neural yang terus diperbarui, sesuai dengan fungsi penghargaan, selama proses pelatihan. Agen AI belajar dari pengalaman, seperti halnya manusia.

Meskipun RL konvensional telah mencapai hasil dunia nyata yang mengesankan di banyak bidang, RL dapat berjuang untuk secara efektif membangun fungsi penghargaan untuk tugas-tugas kompleks di mana definisi keberhasilan yang jelas sulit untuk ditetapkan. Keuntungan utama dari RLHF adalah kemampuannya untuk menangkap nuansa dan subjektivitas dengan menggunakan masukan manusia yang positif sebagai pengganti tujuan yang ditentukan secara formal.

RLHF untuk model bahasa yang besar

Salah satu aplikasi RLHF yang paling menonjol adalah meningkatkan relevansi, akurasi, dan etika LLM—khususnya untuk penggunaannya sebagai chatbot.

LLM, seperti semua model AI generatif, bertujuan untuk mereplikasi distribusi probabilitas data pelatihan. Meskipun kemajuan terbaru telah memajukan penggunaan LLM sebagai mesin untuk chatbot, atau bahkan sebagai mesin penalaran untuk AI tujuan umum, model bahasa ini hanya menggunakan pola yang dipelajari dari data pelatihannya untuk memprediksi kata berikutnya dalam urutan tertentu yang diawali oleh prompt. Pada tingkat dasar, model ini tidak benar-benar menjawab prompt, tetapi hanya menambahkan teks ke dalamnya. 

Tanpa instruksi yang sangat spesifik, model bahasa hanya memiliki sedikit kemampuan untuk memahami maksud pengguna. Meskipun rekayasa prompt dapat membantu memberikan konteks yang diperlukan LLM untuk menyesuaikan respons terhadap kebutuhan pengguna, namun tidak praktis jika setiap interaksi dengan chatbot memerlukan rekayasa prompt.

Selain itu, meskipun LLM yang tidak biasa telah dilatih dengan metode konvensional untuk menghasilkan keluaran yang koheren secara tata bahasa, melatih LLM untuk menghasilkan keluaran yang "baik" adalah masalah yang penuh teka-teki. Konsep-konsep seperti kebenaran, bantuan, kreativitas, atau bahkan hal yang membuat potongan kode dapat dieksekusi jauh lebih bergantung pada konteks daripada arti kata dan struktur linguistik.

Untuk membuat model bahasa yang lebih baik dalam interaksi manusia, para ilmuwan data beralih ke pembelajaran penguatan dengan masukan dari manusia. Model InstructGPT yang disempurnakan dengan RLHF mengungguli pendahulunya GPT-3, terutama dalam hal mengikuti instruksi, menjaga akurasi fakta, dan menghindari halusinasi model.⁵ Demikian juga, penelitian yang dirilis oleh OpenAI pada saat peluncuran GPT-4 menunjukkan bahwa RLHF meningkatkan akurasi hingga dua kali lipat pada pertanyaan-pertanyaan yang bersifat adversarial.⁸

Manfaat RLHF bahkan dapat menggantikan nilai dataset pelatihan yang lebih besar, sehingga memungkinkan pengembangan model yang lebih efisien: OpenAI mencatat bahwa pemberi labelnya lebih menyukai keluaran dari versi 1.3B-parameter dari InstructGPT daripada keluaran dari versi 175B-parameter dari GPT-3.⁵

Bagaimana cara kerja RLHF?

Pelatihan LLM dengan RLHF biasanya berlangsung dalam empat fase:

Model pelatihan sebelumnya

RLHF umumnya digunakan untuk fine tuning dan mengoptimalkan model yang telah dilatih sebelumnya, bukan sebagai metode pelatihan menyeluruh. Sebagai contoh, InstructGPT menggunakan RLHF untuk meningkatkan GPT yang sudah ada sebelumnya—yaitu, model Transformer Generatif yang Dilatih Sebelumnya. Dalam pengumuman rilisnya untuk InstructGPT, OpenAI menyatakan bahwa "salah satu cara berpikir tentang proses ini adalah bahwa proses ini 'membuka' kemampuan yang telah dimiliki GPT-3, tetapi sulit untuk diperoleh melalui rekayasa yang cepat saja. "⁵

Pelatihan sebelumnya sejauh ini merupakan fase RLHF yang paling padat sumber daya. OpenAI mencatat bahwa proses pelatihan RLHF untuk InstructGPT memerlukan kurang dari 2 persen komputasi dan data yang diperlukan untuk pelatihan sebelumnya GPT-3.

Penyesuaian yang diawasi

Sebelum memulai pembelajaran penguatan eksplisit, penyesuaian yang diawasi (SFT) digunakan untuk menyempurnakan model untuk menghasilkan respons dalam format yang diharapkan oleh pengguna.

Seperti yang telah disinggung sebelumnya, proses pelatihan sebelumnya LLM mengoptimalkan model untuk penyelesaian: memprediksi kata-kata berikutnya dalam suatu urutan dimulai dengan permintaan pengguna dengan meniru pola linguistik yang dipelajari selama pelatihan sebelumnya model. Terkadang, LLM tidak akan menyelesaikan urutan sesuai dengan yang diinginkan pengguna: misalnya, jika pengguna meminta, "ajari saya cara membuat resume," LLM mungkin merespons dengan "menggunakan Microsoft Word." Ini adalah cara yang valid untuk melengkapi kalimat, tetapi tidak selaras dengan tujuan pengguna.

Oleh karena itu, SFT menggunakan pembelajaran yang diawasi untuk melatih model agar dapat merespons berbagai jenis prompt dengan tepat. Pakar manusia membuat contoh berlabel, mengikuti format(prompt, respons), untuk mendemonstrasikan cara merespons prompt dalam berbagai contoh penggunaan, seperti menjawab pertanyaan, meringkas, atau menerjemahkan.

Data demonstrasi ini, meskipun sangat kuat, memakan waktu dan mahal untuk menghasilkannya. Daripada membuat contoh baru yang dipesan lebih dahulu, DeepMind memperkenalkan pendekatan "yang menerapkan heuristik penyaringan berdasarkan format dialog tertulis yang umum (gaya 'transkrip wawancara')" untuk mengisolasi pasangan contoh perintah/respons yang sesuai dari dalam dataset MassiveWeb mereka.⁹

Pelatihan model penghargaan

Agar masukan manusia untuk memperkuat fungsi hadiah dalam pembelajaran penguatan, model hadiah diperlukan untuk menerjemahkan preferensi manusia menjadi sinyal hadiah numerik. Merancang model penghargaan yang efektif adalah langkah penting dalam RLHF, karena tidak ada rumus matematika atau logis langsung untuk secara layak mendefinisikan nilai-nilai manusia subjektif.

Tujuan utama dari fase ini adalah untuk menyediakan data pelatihan yang cukup bagi model hadiah, yang terdiri dari masukan langsung dari penilai manusia, untuk membantu model belajar meniru cara preferensi manusia dalam mengalokasikan hadiah ke berbagai jenis respons model. Hal ini memungkinkan pelatihan dilanjutkan secara offline tanpa adanya manusia dalam lingkaran.

Model imbalan harus mengambil urutan teks dan menghasilkan nilai imbalan skalar yang memprediksi, secara numerik, seberapa besar imbalan (atau hukuman) yang akan diberikan oleh pengguna manusia terhadap teks tersebut. Keluaran yang merupakan nilai skalar ini penting agar keluaran model penghargaan dapat diintegrasikan dengan komponen lain dari algoritma RL.

Meskipun mungkin terlihat paling intuitif untuk hanya meminta penilai manusia mengekspresikan pendapat mereka tentang setiap respons model dalam bentuk skalar—seperti menilai respons pada skala satu (terburuk) hingga sepuluh (terbaik)—sangat sulit untuk membuat semua penilai manusia selaras dengan nilai relatif dari nilai yang diberikan, apalagi membuat penilai manusia selaras dengan apa yang merupakan respons "baik" atau "buruk" dalam ruang hampa. Hal ini dapat membuat peringkat skalar langsung menjadi berisik dan sulit untuk dikalibrasi.

Sebaliknya, sistem penilaian biasanya dibangun dengan membandingkan masukan manusia untuk keluaran model yang berbeda. Metode yang umum digunakan adalah dengan meminta pengguna membandingkan dua urutan teks analog—seperti output dari dua model bahasa yang berbeda yang merespons permintaan yang sama—dalam pertandingan head-to-head, kemudian menggunakan sistem peringkat Elo untuk menghasilkan peringkat agregat dari setiap bit teks yang dihasilkan relatif terhadap satu sama lain. Sebuah sistem sederhana dapat memungkinkan pengguna untuk "jempol ke atas" atau "jempol ke bawah" setiap output, dengan output yang kemudian diberi peringkat berdasarkan kesukaan relatif mereka. Sistem yang lebih kompleks mungkin meminta pemberi label untuk memberikan peringkat keseluruhan dan menjawab pertanyaan kategoris tentang kekurangan setiap tanggapan, kemudian secara algoritmik menggabungkan masukan ini menjadi skor kualitas tertimbang.

Hasil dari sistem peringkat mana pun pada akhirnya dinormalisasi menjadi sinyal hadiah skalar untuk menginformasikan pelatihan model hadiah.

Optimalisasi kebijakan

Rintangan terakhir dari RLHF adalah menentukan bagaimana—dan seberapa besar—model penghargaan yang harus digunakan untuk memperbarui kebijakan agen AI. Salah satu algoritma yang paling sukses digunakan untuk fungsi penghargaan yang memperbarui model RL adalah optimasi kebijakan proksimal (PPO).

Tidak seperti kebanyakan arsitektur model machine learning dan jaringan neural, yang menggunakan gradient descent untuk meminimalkan fungsi kerugian dan menghasilkan kesalahan sekecil mungkin, algoritma pembelajaran penguatan sering kali menggunakan gradien naik untuk memaksimalkan penghargaan.

Namun, jika fungsi penghargaan digunakan untuk melatih LLM tanpa pagar pembatas, model bahasa dapat secara dramatis mengubah bobotnya hingga menghasilkan omong kosong dalam upaya untuk "mempermainkan" model penghargaan. PPO menyediakan cara yang lebih stabil untuk memperbarui kebijakan agen AI dengan membatasi berapa banyak kebijakan yang dapat diperbarui dalam setiap iterasi pelatihan.

Pertama, salinan model awal dibuat dan bobot yang dapat dilatih dibekukan. Algoritma PPO menghitung rentang [1-ε, 1+ε], di mana ε adalah hiperparameter yang secara kasar menentukan seberapa jauh kebijakan baru (yang diperbarui) diizinkan menyimpang dari kebijakan lama (yang dibekukan). Kemudian, menghitung rasio probabilitas: rasio probabilitas tindakan tertentu yang diambil oleh kebijakan lama vs probabilitas tindakan tersebut diambil oleh kebijakan baru. Jika rasio probabilitas lebih besar dari1+ε (atau di bawah1-ε), besarnya pembaruan kebijakan dapat dipotong untuk mencegah perubahan tajam yang dapat mengganggu kestabilan keseluruhan model.

Pengenalan PPO memberikan alternatif yang menarik untuk pendahulunya, trust region policy optimization (TRPO), yang memberikan manfaat yang sama tetapi lebih rumit dan mahal secara komputasi daripada PPO. Meskipun kerangka kerja optimasi kebijakan lainnya seperti aktor-kritik keuntungan (A2C) juga dapat digunakan, PPO sering kali lebih disukai sebagai metodologi yang sederhana dan hemat biaya.

Keterbatasan RLHF

Meskipun model RLHF telah menunjukkan hasil yang mengesankan dalam melatih agen AI untuk tugas-tugas kompleks mulai dari robotika dan video game hingga NLP, penggunaan RLHF bukannya tanpa keterbatasan.

Data preferensi manusia itu mahal. Kebutuhan untuk mengumpulkan input dari manusia secara langsung dapat menciptakan hambatan yang mahal yang membatasi skalabilitas proses RLHF. Baik Anthropic¹⁰ dan Google¹¹ telah mengusulkan metode pembelajaran penguatan dari masukan AI (RLAIF), menggantikan beberapa atau semua masukan manusia dengan memiliki LLM lain yang mengevaluasi respons model, yang telah memberikan hasil yang sebanding dengan RLHF.

Input manusia sangat subjektif. Sulit, bahkan tidak mungkin, untuk membangun konsensus yang kuat tentang apa yang merupakan hasil yang "berkualitas tinggi", karena para anotator manusia akan sering tidak setuju tidak hanya tentang fakta yang dituduhkan, tetapi juga tentang apa yang dimaksud dengan perilaku model yang "sesuai". Ketidaksepakatan manusia menghalangi terwujudnya "kebenaran dasar" yang sesungguhnya, yang dapat digunakan untuk menilai kinerja model.

Penilai manusia bisa saja salah, atau bahkan sengaja memusuhi dan jahat. Entah mencerminkan pandangan kontrarian yang tulus atau dengan sengaja mempermainkan proses pembelajaran, bimbingan manusia terhadap model tidak selalu diberikan dengan iktikad baik. Dalam sebuah makalah tahun 2016, Wolf, dkk mengemukakan bahwa perilaku beracun harus menjadi ekspektasi mendasar dari interaksi manusia-bot dan menyarankan perlunya metode untuk menilai kredibilitas input manusia.¹² Pada tahun 2022, Meta AI merilis makalah tentang input manusia yang bersifat permusuhan (tautan berada di luar ibm.com) yang mempelajari metode otomatis "untuk mendapatkan efisiensi pembelajaran maksimum dari data berkualitas tinggi, sementara secara bersamaan menjadi kuat secara maksimal terhadap data berkualitas rendah dan permusuhan." Makalah ini mengidentifikasi berbagai pola dasar "troll" dan berbagai cara mereka mendistorsi data masukan.

RLHF berisiko mengalami overfitting dan bias. Jika masukan manusia dikumpulkan dari demografi yang terlalu sempit, model ini dapat menunjukkan masalah kinerja ketika digunakan oleh kelompok yang berbeda atau diminta pada pokok bahasan di mana evaluator manusia memiliki bias tertentu.

Solusi terkait

watsonx.ai

Anda dapat melatih, memvalidasi, menyetel, dan menerapkan AI generatif, model dasar, dan kemampuan machine learning dengan mudah serta membangun aplikasi AI dalam waktu yang singkat dengan data yang sedikit.

Jelajahi watsonx.ai

Sumber daya RLHF

Memulai dengan API Pembelajaran Penguatan Online

Jalur pembelajaran ini memberikan gambaran umum tentang pembelajaran penguatan otomatis dan mendemonstrasikan penggunaan Automated AI for Decision-Making API untuk mendukung contoh penggunaan pembelajaran penguatan online secara umum.

Melatih agen perangkat lunak untuk berperilaku rasional dengan pembelajaran penguatan

Pelajari sejarah dan prinsip-prinsip penting pembelajaran penguatan, kemudian buat demonstrasi sederhana menggunakan teknik " Q learning ". Termasuk implementasi sampel.

Bagaimana IBM Consulting memberikan pendekatan yang berharga dan bertanggung jawab pada AI

Pada bagian pertama dan kedua dari seri tiga bagian ini, kita telah membahas definisi dan contoh penggunaan AI generatif. Bagian ini mengeksplorasi pendekatan yang diambil IBM Consulting ketika memulai proyek AI.

Ambil langkah selanjutnya

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Jelajahi watsonx.ai

Pesan demo langsung

Catatan kaki

¹ "Pembelajaran penguatan mendalam dari preferensi manusia," (tautan berada di luar ibm.com) arXiv, terakhir direvisi 17 Februari 2023
² "OpenAI Five kalahkan juara dunia Dota 2," (tautan berada di luar ibm.com) OpenAI, 15 April 2019.
³ "AlphaStar: Menguasai permainan strategi real-time StarCraft II," (tautan berada di luar ibm.com) Google DeepMind, 24 Januari 2019
⁴ "lm-human-preferences,"(tautan berada di luar ibm.com) OpenAI (di GitHub), 2019
⁵ "Menyelaraskan model bahasa untuk mengikuti instruksi," (tautan berada di luar ibm.com) OpenAI, 27 Januari 2022
⁶ "Gambaran umum tentang Bard: percobaan awal dengan AI generatif,"(tautan berada di luar ibm.com) Google AI, terakhir diperbarui 19 Oktober 2023
⁷ "Melatih Asisten yang Bermanfaat dan Tidak Berbahaya dengan Pembelajaran Penguatan dari masukan Manusia," (tautan berada di luar ibm.com) arXiv, 12 Apr 2022
⁸ "Penelitian: GPT-4," (tautan berada di luar ibm.com) OpenAI, 14 Maret 2023
⁹ "Meningkatkan Skala Bahasa: Metode, Analisis & Insight dari Pelatihan Gopher," (tautan berada di luar ibm.com) arXiv, terakhir direvisi 21 Jan 2022
¹⁰ "AI Konstitusional: Ketidakbahayaan dari Masukan AI," (tautan berada di luar ibm.com) Antropik, 15 Desember 2022
¹¹ " RLAIF: Meningkatkan Pembelajaran Penguatan dari masukan Manusia dengan masukan AI," (tautan berada di luar ibm.com) arXiv, 1 Sep 2023
¹² "Mengapa Kita Harus Bersiap: Komentar atas 'Eksperimen' Tay dari Microsoft dan Implikasi yang Lebih Luas," (tautan berada di luar ibm.com) Jurnal ORBIT, 2017