Apa Itu Llama 2?

Diterbitkan: 19 Desember 2023
Kontributor: Dave Bergmann

Apa itu Llama 2?

Llama 2 adalah keluarga model bahasa besar (LLM ) yang telah dilatih dan disempurnakan yang dirilis oleh Meta AI pada tahun 2023. Dirilis secara gratis untuk penelitian dan penggunaan komersial, model AI Llama 2 mampu melakukan berbagai tugas pemrosesan bahasa alami (NLP), mulai dari pembuatan teks hingga kode pemrograman.

Keluarga model Llama 2, yang ditawarkan sebagai model dasar dan model "chat" yang telah disempurnakan, berfungsi sebagai penerus model LLaMa 1 asli, yang dirilis pada tahun 2022 di bawah lisensi non-komersial yang memberikan akses berdasarkan kasus per kasus secara eksklusif untuk lembaga penelitian. Tidak seperti pendahulunya, model Llama 2 tersedia secara gratis untuk penelitian AI dan penggunaan komersial.

Dengan demikian, model Llama dari Meta bertujuan untuk memainkan peran penting dalam mendemokratisasi ekosistem AI generatif. Seperti yang dicatat dalam makalah penelitian Llama 2 (tautan berada di luar ibm.com), meskipun metodologi untuk pra-pelatihan LLM autoregresif melalui pembelajaran mandiri, saat ini, relatif mudah dan dipahami dengan baik, persyaratan komputasi yang sangat besar yang diperlukan dalam proses ini sebagian besar membatasi pengembangan LLM mutakhir untuk beberapa pemain utama. Karena sebagian besar LLM yang canggih, seperti GPT dari OpenAI, Claude dari Anthropic, dan BARD dari Google merupakan model sumber tertutup (dan masif) yang bersifat eksklusif, akses penelitian AI untuk umum yang dapat membantu memahami bagaimana dan mengapa model-model ini bekerja—serta bagaimana menyelaraskan pengembangannya dengan kepentingan manusia—menjadi sangat terbatas.

Selain membuat kode dan bobot modelnya tersedia secara bebas, proyek Llama berfokus pada peningkatan kemampuan kinerja model yang lebih kecil, bukan dengan meningkatkan jumlah parameter. Sementara sebagian besar model sumber tertutup terkemuka memiliki ratusan miliar parameter, model Llama 2 ditawarkan dengan tujuh miliar (7B), 13 miliar (13B), atau 70 miliar parameter (70B).

Hal ini memungkinkan organisasi yang lebih kecil, seperti perusahaan rintisan dan anggota komunitas penelitian, untuk menerapkan instans lokal model Llama 2—atau model berbasis Llama yang dikembangkan oleh komunitas AI—tanpa memerlukan waktu komputasi atau investasi infrastruktur yang sangat mahal.

Pelajari lebih lanjut: IBM akan Menyediakan Llama 2 dalam Platform AI dan Data Watsonx

Llama 2 vs LLaMa 1

Makalah penelitian Llama 2 memperinci beberapa keuntungan yang ditawarkan model AI generasi terbaru dibandingkan model LLaMa yang asli.

Panjang konteks yang lebih besar: Model Llama 2 menawarkan panjang konteks 4.096 token, dua kali lipat dari LLaMa 1. Panjang konteks (atau jendela konteks) mengacu pada jumlah maksimum token yang dapat "diingat" oleh model selama proses inferensi (yaitu pembuatan teks atau percakapan yang sedang berlangsung). Hal ini memungkinkan kompleksitas yang lebih besar dan interaksi bahasa alami yang lebih koheren dan lancar.
Aksesibilitas yang lebih besar: Jika LLaMa 1 dirilis secara eksklusif untuk penggunaan penelitian, Llama 2 tersedia untuk organisasi mana pun (dengan kurang dari 700 juta pengguna aktif).
Pelatihan yang lebih kuat: Llama 2 telah dilatih dengan 40% data lebih banyak, sehingga meningkatkan basis pengetahuan dan pemahaman kontekstualnya. Selain itu, tidak seperti LLaMa 1, model obrolan Llama 2 telah disempurnakan menggunakan pembelajaran penguatan dari masukan manusia (RLHF), yang membantu menyelaraskan respons model dengan ekspektasi manusia dengan lebih baik.

Penyimpanan data untuk AI

Temukan manfaat mengintegrasikan strategi data lakehouse ke dalam arsitektur data Anda, yang mencakup peningkatan untuk meningkatkan skala AI dan peluang pengoptimalan biaya.

Konten terkait

Mendaftar untuk mendapatkan laporan IDC

Apakah Llama 2 merupakan sumber terbuka?

Meskipun Meta telah menyediakan kode awal dan bobot model untuk model Llama 2 tersedia secara bebas untuk penelitian dan penggunaan komersial, beberapa pembatasan dalam perjanjian lisensinya telah menyebabkan perdebatan mengenai apakah model ini dapat disebut sebagai "sumber terbuka."

Perdebatannya agak teknis dan semantik: meskipun "sumber terbuka" sering digunakan sehari-hari untuk merujuk pada perangkat lunak apa pun (atau alat pemrograman lainnya) yang kode sumbernya didistribusikan secara gratis, itu sebenarnya adalah sebutan formal yang dikelola oleh Open Source Initiative (OSI). OSI hanya mengesahkan lisensi perangkat lunak yang diberikan sebagai "Open Source Initiative approved" jika dianggap lisensi tersebut memenuhi sepuluh persyaratan yang tercantum dalam Open Source Definition (OSD) resmi ( tautan berada di luar ibm.com).

Seperti yang dijelaskan dalam sebuah pernyataan dari Direktur Eksekutif OSI, Stefano Maffulli, "OSI sangat senang melihat Meta menurunkan hambatan untuk mengakses sistem AI yang kuat. Sayangnya, raksasa teknologi ini telah menciptakan kesalahpahaman bahwa LLaMa 2 adalah "open source"–padahal bukan." ¹

Perbedaan tersebut berasal dari dua aspek perjanjian lisensi Llama 2:

Setiap organisasi dengan lebih dari 700 juta pengguna aktif bulanan harus meminta lisensi dari Meta (yang akan diberikan atas kebijakan Meta).²
"Kebijakan Penggunaan yang Dapat Diterima" melarang penggunaan model untuk kekerasan, aktivitas kriminal, dan peniruan manusia, di antara batasan-batasan hukum dan moral lainnya.

Pembatasan ini bertentangan dengan dua poin OSD:

Poin 5: “Lisensi tidak boleh mendiskriminasi orang atau kelompok orang mana pun ." ³
Poin 6: "Lisensi tidak boleh membatasi siapa pun untuk menggunakan program dalam bidang usaha tertentu." ³

Untuk mengakui semangat terbuka Llama 2 dan kegagalannya untuk memenuhi definisi teknis “sumber terbuka,” beberapa di komunitas teknologi telah menggunakan istilah “pendekatan terbuka.” ⁴

Bagaimana cara kerja Llama 2?

Model dasar Llama 2 adalah model dasar yang telah dilatih yang dimaksudkan untuk disesuaikan untuk contoh penggunaan tertentu, sedangkan model obrolan Llama 2 sudah dioptimalkan untuk dialog.

Model dasar Llama 2

Llama 2 adalah keluarga model bahasa kausal autoregresif berbasis transformer. Model bahasa autoregresif mengambil urutan kata sebagai input dan secara rekursif memprediksi—output—kata berikutnya.

Selama pra-pelatihan dengan pengawasan mandiri, LLM diberikan contoh kalimat awal yang diambil dari korpus data yang sangat besar dan tidak berlabel dan ditugaskan untuk memprediksi kata berikutnya. Dalam melatih model untuk meminimalkan perbedaan antara kebenaran dasar (kata yang sebenarnya) dan prediksi yang dibuatnya sendiri, model belajar untuk mereplikasi pola linguistik dan logis dalam data pelatihan. Meskipun makalah penelitian ini tidak memperinci sumber data secara spesifik, tetapi disebutkan bahwa Llama 2 dilatih dengan 2 triliun token—kata, bagian kata, frasa, dan fragmen semantik lainnya yang diwakili secara numerik yang digunakan neural networks berbasis transformer untuk pemrosesan bahasa—dari sumber yang tersedia untuk umum.

Pada tingkat yang mendasar, model dasar tidak dilatih sebelumnya untuk benar-benar menjawab perintah: model ini menambahkan teks ke dalamnya dengan cara yang koheren secara tata bahasa. Model dasar yang tidak biasa mungkin menanggapi perintah "ajari saya memanggang kue" dengan "untuk pesta liburan".Penyempurnaan lebih lanjut, melalui teknik-teknik seperti pembelajaran yang diawasi dan pembelajaran penguatan, diperlukan untuk melatih model dasar untuk aplikasi tertentu seperti dialog, mengikuti instruksi, atau menulis kreatif.

Sebaliknya, model dasar Llama 2 dimaksudkan untuk berfungsi sebagai fondasi untuk membangun model yang memiliki tujuan khusus. Hingga saat ini, model Llama 2 (dan model asli LLaMa) telah menjadi dasar dari beberapa LLM sumber terbuka terkemuka, termasuk:

Alpaka: Versi LLaMa 7B yang telah disesuaikan untuk mengikuti instruksi oleh para peneliti Universitas Stanford. Khususnya, model ini mencapai hasil yang kompetitif dengan GPT-3.5 meskipun hanya menghabiskan sumber daya komputasi sebesar USD 600.⁵
Vicuna: Model asisten obrolan dari LMSYS Org, dilatih dengan menyempurnakan Llama 2 13B pada percakapan pengguna dari ShareGPT (tautan berada di luar ibm.com). Model ini mengungguli Alpaca di lebih dari 90% kasus hanya dengan biaya pelatihan sebesar USD 300.⁶
Orca: Versi Llama 2 yang telah disempurnakan, dilatih oleh Microsoft menggunakan skema "guru-murid", yang mana LLM yang lebih besar dan lebih kuat digunakan untuk menghasilkan contoh-contoh perilaku penalaran yang berguna untuk diikuti oleh model yang lebih kecil^.7
WizardLM: Disempurnakan menggunakan Evol-Instruct, sebuah metode untuk membuat data instruksi sintetis dalam jumlah besar menggunakan LLM, WizardLM mencapai lebih dari 90% kinerja ChatGPT dalam 17 dari 29 skill yang dievaluasi.⁸

Model obrolan Llama 2

Model obrolan LLAMA-2 disempurnakan untuk contoh penggunaan berbasis dialog, mirip dengan versi model GPT tertentu yang digunakan di ChatGPT.

Supervised fine tuning (SFT) digunakan untuk menyempurnakan model dasar Llama 2 yang telah dilatih sebelumnya untuk menghasilkan respons dalam format yang diharapkan oleh pengguna dalam pengaturan chatbot atau agen virtual. Dalam serangkaian tugas pembelajaran yang diawasi, pasangan berlabel dari interaksi bergaya dialog, yang dianotasi sebagai(perintah, respons), digunakan untuk melatih model untuk meminimalkan perbedaan antara responsnya sendiri untuk perintah yang diberikan dan contoh respons yang diberikan oleh data berlabel. Dengan demikian, model ini belajar, misalnya, bahwa respons yang tepat terhadap perintah "ajari saya membuat kue" adalah dengan memberikan instruksi yang sebenarnya untuk membuat kue, bukan hanya melengkapi kalimat.

Daripada menggunakan jutaan contoh berlabel, makalah tersebut menyatakan bahwa hasil yang diperoleh menjadi lebih baik dengan menggunakan "contoh yang lebih sedikit tetapi berkualitas lebih tinggi," dengan mencatat bahwa Meta AI mengumpulkan 27.540 sampel beranotasi.

Mengikuti SFT, Meta menggunakan pembelajaran penguatan dengan masukan manusia (RLHF ) untuk menyelaraskan perilaku model obrolan dengan preferensi dan instruksi manusia. Dalam RLHF, masukan langsung dari manusia digunakan untuk melatih "model hadiah" untuk mempelajari pola jenis respons yang disukai manusia. Dengan menerjemahkan prediksi model hadiah (mengenai apakah respons yang diberikan akan lebih disukai oleh manusia) ke dalam sinyal hadiah skalar, model hadiah kemudian digunakan untuk melatih Llama-2-chat lebih lanjut melalui pembelajaran penguatan.

Ada banyak metode dan format yang berbeda yang dapat digunakan untuk mengumpulkan masukan dari manusia. Meta AI menggunakan metode perbandingan biner yang sederhana: anotator manusia diminta untuk menulis sebuah perintah, kemudian memilih di antara dua respons model—berdasarkan kriteria yang disediakan oleh Meta—yang dihasilkan oleh dua varian Llama 2 yang berbeda. Untuk membantu model hadiah menimbang pilihan-pilihan ini dengan benar, para anotator juga diminta untuk menilai sejauh mana mereka lebih menyukai respons yang mereka pilih daripada yang lain: "jauh lebih baik, " "sedikit lebih baik" atau "tidak terlalu baik/tidak yakin."

Preferensi manusia digunakan untuk melatih dua model hadiah yang berbeda: satu dioptimalkan untuk membantu, yang lain dioptimalkan untuk keselamatan (yaitu menghindari respons yang toksik, penuh kebencian, atau tanggapan yang dapat digunakan untuk membantu kekerasan atau aktivitas kriminal). Selain proximal policy optimization (PPO), algoritma yang biasanya digunakan untuk memperbarui bobot model LLM di RLHF, Meta juga menggunakan rejection sampling (tautan berada di luar ibm.com) untuk memperbarui Llama-2-chat-70B.

Code Llama

Code Llama, yang dibangun di atas Llama 2, telah disempurnakan dengan baik untuk menghasilkan kode (dan bahasa alami tentang kode) dari perintah berbasis kode dan bahasa alami. Diperkenalkan tak lama setelah peluncuran model dasar dan obrolan Llama 2, model ini gratis untuk penelitian dan penggunaan komersial.

Mendukung sebagian besar bahasa pemrograman populer, termasuk Python, C++, Java, PHP, dan Javascript (di antaranya), tersedia dalam ukuran model parameter 7B, 13B, dan 34B, dan menawarkan panjang konteks hingga 100.000 token. Dua variasi tambahan, Code Llama - Python dan Code Llama - Instruct, masing-masing disesuaikan untuk Python (dan PyTorch) dan mengikuti instruksi.

Llama 2 vs. model sumber tertutup

Dibandingkan dengan pesaingnya yang bersumber tertutup, model Llama 2 unggul dalam berbagai bidang, seperti keamanan dan akurasi faktual. Meskipun Llama 2 mungkin tidak menyamai kemampuan penuh model yang jauh lebih besar, tetapi ketersediaannya yang bersifat terbuka dan efisiensinya yang lebih besar menawarkan keuntungan yang unik.

Dalam membandingkan Llama 2 dengan model-model berhak milik unggulan dari para pesaing seperti OpenAI, Anthropic, dan Google, penting untuk mempertimbangkan skala. Meskipun model sumber tertutup tidak selalu mengungkapkan detail lengkap arsitekturnya, informasi yang tersedia sangat menunjukkan bahwa semuanya sangat jauh melebihi 70 miliar parameter model Llama 2 yang terbesar:

GPT-3 memiliki 175 miliar parameter.
GPT-4 diperkirakan memiliki 1 triliun parameter^.9
PaLM 2 dari Google dilaporkan memiliki 340 miliar parameter^.10 Pendahulunya, PaLM, memiliki 540 miliar parameter^.11
Anthropic belum merilis jumlah parameter untuk model Claude, tetapi sebuah makalah baru-baru ini menunjukkan adanya versi Claude 2¹² dengan 175 miliar parameter.

Evaluasi manusia
Menurut makalah penelitian Llama 2, evaluator manusia lebih menyukai respons Llama-2-chat 70B daripada GPT-3.5.-turbo-0301, model standar untuk ChatGPT: respons Llama 2 memiliki tingkat kemenangan 36% dan tingkat seri 31,5%. Dibandingkan dengan PalM Bison, model PaM terbesar kedua, 70B memiliki tingkat kemenangan lebih dari 50%.

Keselamatan
Dalam pengujian Meta, model 7B, 13B, dan 70B Llama 2 semuanya memiliki persentase pelanggaran keselamatan yang jauh lebih rendah daripada PaLM Bison—3% dan 4%, dibandingkan dengan 27% PaLM—serta persentase pelanggaran keselamatan yang lebih rendah daripada 7% ChatGPT. Ini adalah kelebihan utama untuk contoh penggunaan perusahaan, yang mana bahasa yang toksik, penuh kebencian, atau menghasut dari chatbot dapat menimbulkan konsekuensi besar.

Privasi dan efisiensi
Keuntungan yang melekat dari model terbuka yang lebih kecil dibandingkan model sumber tertutup masif adalah kebebasan bagi bisnis untuk menjalankan instans model lokal dan efisiensi biaya untuk melakukannya tanpa investasi besar-besaran dalam infrastruktur atau komputasi awan. Menjalankan model lokal memastikan bahwa kode berhak milik, modifikasi pelatihan, dan data hak milik dapat digunakan untuk menyempurnakan kinerja model tanpa harus dimuat ke server komersial atau berpotensi digunakan dalam pelatihan model sumber tertutup di masa mendatang. Selain itu, ukuran model yang lebih kecil, seperti varian 7B dan 13B, memungkinkan kinerja yang lebih mulus di lingkungan seperti aplikasi seluler di mana daya pemrosesan terbatas.

Cara menggunakan Llama 2

Llama 2 tidak memiliki API khusus, tetapi dapat diakses melalui beberapa penyedia.

Llama-2-13B-chat dan Llama-2-70B-chat adalah salah satu dari sekian banyak model dasar yang tersedia di watsonx, melalui kemitraan IBM dengan Hugging Face.
Bobot model dan kode awal untuk Llama 2 dapat diunduh langsung dari Github, tempat Meta juga menyediakan instruksi, demo, dan "resep" untuk Llama 2 (tautan berada di luar ibm.com). Model-model ini dapat diimplementasikan dalam kerangka kerja machine learning sumber terbuka seperti PyTorch atau LangChain.
Llama 2 juga tersedia melalui penyedia sumber terbuka seperti Hugging Face dan penyedia perusahaan seperti Microsoft Azure dan Amazon Sagemaker dan Bedrock, di samping sejumlah perusahaan rintisan berbasis cloud.

Solusi terkait

IBM watsonx.ai

Anda dapat melatih, memvalidasi, menyetel, dan menerapkan AI generatif, model dasar, dan kemampuan machine learning dengan mudah serta membangun aplikasi AI dalam waktu yang singkat dengan data yang sedikit.

Jelajahi watsonx.ai

IBM watsonx Assistant

Memberikan layanan pelanggan yang konsisten dan cerdas di semua saluran dan titik kontak dengan AI percakapan.

Jelajahi IBM watsonx Assistant

Layanan konsultasi AI

Menata ulang cara Anda bekerja dengan AI: tim global kami yang beragam dan terdiri dari lebih dari 20.000 pakar AI dapat membantu Anda dengan cepat dan percaya diri dalam merancang dan meningkatkan skala AI serta otomatisasi di seluruh bisnis Anda, bekerja di seluruh teknologi IBM watsonx kami sendiri dan ekosistem mitra yang terbuka untuk menghadirkan model AI apa pun, di cloud mana pun, yang dipandu oleh etika dan kepercayaan.

Jelajahi layanan konsultasi IBM AI

Sumber daya Llama 2

Pelajari lebih lanjut mengenai Llama 2 dan topik yang lebih luas mengenai model dasar.

Model dasar

Model AI modern yang menjalankan tugas-tugas spesifik dalam satu domain mulai digantikan oleh model AI yang belajar secara lebih umum, dan bekerja di berbagai domain dan masalah. Model dasar, yang dilatih pada kumpulan data besar yang tidak berlabel dan disesuaikan untuk berbagai aplikasi, mendorong pergeseran ini.

Cara IBM menyesuaikan AI generatif untuk perusahaan

Pelajari bagaimana IBM mengembangkan model dasar generatif yang dapat dipercaya, hemat energi, dan portabel, yang memungkinkan perusahaan untuk memindahkan beban kerja AI dengan lancar antara cloud publik dan privat.

Apa yang dimaksud dengan penyelarasan AI?

Jelajahi proses pengkodean nilai-nilai dan sasaran manusia ke dalam model bahasa besar untuk menjadikannya bermanfaat, aman, dan seandal mungkin. Melalui penyelarasan, perusahaan dapat menyesuaikan model AI untuk mengikuti aturan dan kebijakan bisnis mereka.

Ambil langkah selanjutnya

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Jelajahi watsonx.ai

Pesan demo langsung

Catatan kaki