Apa yang dimaksud dengan Model Transformer?

Apa yang dimaksud dengan model transformer?

Model transformer adalah jenis model pembelajaran mendalam yang diperkenalkan pada tahun 2017. Model-model ini dengan cepat menjadi fundamental dalam pemrosesan bahasa alami (NLP), dan telah diterapkan pada berbagai tugas dalam machine learning dan kecerdasan buatan.

Model ini pertama kali dijelaskan dalam makalah tahun 2017 yang berjudul "Attention is All You Need" oleh Ashish Vaswani, sebuah tim di Google Brain, dan sebuah kelompok dari University of Toronto. Penerbitan makalah ini dianggap sebagai momen penting dalam bidang ini, mengingat betapa luasnya penggunaan transformer dalam aplikasi seperti pelatihan LLM.

Model ini dapat menerjemahkan teks dan ucapan hampir secara real-time. Misalnya, ada aplikasi yang sekarang memungkinkan wisatawan untuk berkomunikasi dengan penduduk setempat di jalan dalam bahasa utama mereka. Mereka membantu peneliti lebih memahami DNA dan mempercepat desain obat. Mereka dapat mendeteksi anomali dan mencegah penipuan di bidang keuangan dan keamanan. Vision transformer juga digunakan untuk tugas-tugas visi komputer.

Alat pembuatan teks ChatGPT yang populer dari OpenAI memanfaatkan arsitektur transformer untuk prediksi, ringkasan, menjawab pertanyaan, dan banyak lagi, karena memungkinkan model untuk fokus pada segmen teks input yang paling relevan. “GPT” terlihat di berbagai versi alat (mis. GPT-2, GPT-3) adalah singkatan dari “transformator pra-terlatih generatif.” Alat AI generatif berbasis teks seperti ChatGPT mendapat manfaat dari model transformator karena mereka dapat lebih mudah memprediksi kata berikutnya dalam urutan teks, berdasarkan kumpulan data yang besar dan kompleks.

Model BERT, atau Representasi Encoder Bidirectional dari Transformers, didasarkan pada arsitektur transformator. Pada tahun 2019, BERT digunakan untuk hampir semua hasil penelusuran Google berbahasa Inggris, dan telah diluncurkan ke lebih dari 70 bahasa lainnya^.1

Penyimpanan data untuk AI

Temukan kekuatan mengintegrasikan strategi data lakehouse ke dalam arsitektur data Anda, termasuk peningkatan untuk meningkatkan skala AI dan peluang pengoptimalan biaya.

Konten terkait

Daftar untuk buku elektronik tentang AI generatif

Bagaimana model transformator berbeda

Inovasi utama dari model transformator tidak harus bergantung pada jaringan saraf berulang (RNN) atau jaringan saraf convolutional (CNN), pendekatan jaringan saraf yang memiliki kelemahan signifikan. Transformers memproses urutan input secara paralel, sehingga sangat efisien untuk pelatihan dan inferensi — karena Anda tidak bisa hanya mempercepat dengan menambahkan lebih banyak GPU. Model transformator membutuhkan waktu pelatihan yang lebih sedikit daripada arsitektur jaringan saraf berulang sebelumnya seperti memori jangka pendek panjang (LSTM).

RNN dan LSTM masing-masing berasal dari tahun 1920-an dan 1990-an. Teknik-teknik ini menghitung setiap komponen input secara berurutan (mis. kata demi kata), sehingga komputasi bisa memakan waktu lama. Terlebih lagi, kedua pendekatan tersebut memiliki keterbatasan dalam mempertahankan konteks ketika "jarak" antara bagian informasi dalam suatu input panjang.

Dua inovasi besar

Ada dua inovasi utama yang dibawa model transformator. Pertimbangkan dua inovasi ini dalam konteks memprediksi teks.

Pengkodean posisi: Alih-alih melihat setiap kata sesuai urutan kemunculannya dalam kalimat, nomor unik ditetapkan untuk setiap kata. Hal ini memberikan informasi tentang posisi setiap token (bagian dari input seperti kata atau subkata dalam NLP) dalam urutan, yang memungkinkan model untuk mempertimbangkan informasi sekuensial urutan.
Self-attention: Attention adalah mekanisme yang menghitung bobot setiap kata dalam sebuah kalimat karena kaitannya dengan setiap kata lain dalam kalimat tersebut, sehingga model dapat memprediksi kata-kata yang kemungkinan besar akan digunakan secara berurutan. Pemahaman ini dipelajari seiring waktu saat model dilatih pada banyak data. Mekanisme perhatian diri memungkinkan setiap kata untuk memperhatikan setiap kata lain dalam urutan secara paralel, dengan mempertimbangkan pentingnya kata tersebut untuk token saat ini. Dengan cara ini, dapat dikatakan bahwa model pembelajaran mesin dapat “mempelajari” aturan tata bahasa, berdasarkan probabilitas statistik tentang bagaimana kata-kata biasanya digunakan dalam suatu bahasa.

Bagaimana cara kerja model transformator?

Model transformator bekerja dengan memproses data input, yang dapat berupa urutan token atau data terstruktur lainnya, melalui serangkaian lapisan yang berisi mekanisme perhatian diri dan jaringan saraf feedforward. Ide inti di balik cara kerja model transformator dapat dipecah menjadi beberapa langkah kunci.

Mari kita bayangkan bahwa Anda perlu mengubah kalimat bahasa Inggris menjadi bahasa Prancis. Ini adalah langkah-langkah yang perlu Anda ambil untuk menyelesaikan tugas ini dengan model transformator.

Penyematan masukan: Kalimat masukan pertama-tama diubah menjadi representasi numerik yang disebut penyematan. Ini menangkap makna semantik dari token dalam urutan input. Untuk urutan kata, penyematan ini dapat dipelajari selama pelatihan atau diperoleh dari penyematan kata yang telah dilatih sebelumnya.
Pengkodean posisi: Pengkodean posisi biasanya diperkenalkan sebagai sekumpulan nilai atau vektor tambahan yang ditambahkan ke penyematan token sebelum dimasukkan ke dalam model transformator. Pengkodean posisi ini memiliki pola khusus yang mengkodekan informasi posisi.
Perhatian multi-kepala: Perhatian diri beroperasi di beberapa "kepala perhatian" untuk menangkap berbagai jenis hubungan antar token. Fungsi Softmax, sejenis fungsi aktivasi, digunakan untuk menghitung bobot perhatian dalam mekanisme perhatian diri.
Normalisasi lapisan dan koneksi sisa: Model ini menggunakan normalisasi lapisan dan koneksi sisa untuk menstabilkan dan mempercepat pelatihan.
Jaringan saraf feedforward: Keluaran dari lapisan perhatian-diri dilewatkan melalui lapisan feedforward. Jaringan ini menerapkan transformasi non-linear pada representasi token, yang memungkinkan model untuk menangkap pola dan hubungan yang kompleks dalam data.
Lapisan bertumpuk: Transformer biasanya terdiri dari beberapa lapisan yang ditumpuk di atas satu sama lain. Setiap lapisan memproses output dari lapisan sebelumnya, secara bertahap menyempurnakan representasi. Penumpukan beberapa lapisan memungkinkan model untuk menangkap fitur hierarkis dan abstrak dalam data.
Lapisan keluaran: Dalam tugas urutan-ke-urutan seperti terjemahan mesin neural, modul decoder terpisah dapat ditambahkan di atas encoder untuk menghasilkan urutan output.
Pelatihan: Model transformator dilatih menggunakan pembelajaran yang diawasi, di mana model tersebut belajar meminimalkan fungsi kerugian yang mengukur perbedaan antara prediksi model dan kebenaran dasar untuk tugas yang diberikan. Pelatihan biasanya melibatkan teknik pengoptimalan seperti Adam atau penurunan gradien stokastik (SGD).
Inferensi: Setelah pelatihan, model dapat digunakan untuk menyimpulkan data baru. Selama inferensi, urutan input dilewatkan melalui model yang telah dilatih sebelumnya, dan model tersebut menghasilkan prediksi atau representasi untuk tugas yang diberikan.

Solusi terkait

Data dan AI

Solusi gudang data

Menskalakan beban kerja analitik dan AI berkinerja tinggi yang selalu aktif pada data yang diatur di seluruh organisasi Anda

Pelajari lebih lanjut tentang solusi data warehouse

Data dan AI

IBM watsonx.data

IBM watsonx.data adalah penyimpanan data yang sesuai dengan kebutuhan yang dibangun di atas arsitektur lakehouse terbuka dan didukung oleh kueri, tata kelola, dan format data terbuka untuk membantu mengakses dan berbagi data.

Pelajari lebih lanjut tentang IBM watsonx.data

Sumber daya terkait

IBM akan membantu bisnis meningkatkan beban kerja AI

Ketahui lebih lanjut tentang IBM watsonx.data, sebuah penyimpanan data yang membantu perusahaan dengan mudah menyatukan dan mengatur data terstruktur dan tidak terstruktur.

Potensi disruptif dari arsitektur data lakehouse terbuka dan IBM watsonx.data

Jelajahi arsitektur data lakehouse terbuka dan cari tahu bagaimana arsitektur ini menggabungkan fleksibilitas, dan keunggulan biaya dari data lake dengan kinerja gudang data.

IBM watsonx.data: Penyimpanan data terbuka, hybrid, dan teratur

Temukan bagaimana IBM watsonx.data membantu perusahaan mengatasi tantangan lingkungan data yang kompleks saat ini dan menskalakan AI agar sesuai dengan kebutuhan mereka.

Presto: Pahami semua data Anda, ukuran apa pun, di mana pun

Lihat bagaimana Presto, mesin SQL query sumber terbuka yang cepat dan fleksibel dapat membantu memberikan insight yang dibutuhkan perusahaan.

Ambil langkah selanjutnya

Skalakan beban kerja AI untuk semua data Anda di mana saja dengan IBM watsonx.data. Penyimpanan data yang disesuaikan untuk tujuan yang dibangun pada arsitektur terbuka data lakehouse.

Jelajahi watsonx.data

Pesan demo langsung

Catatan kaki

{¹ BERT Google Diluncurkan di Seluruh Dunia, Jurnal Mesin Pencari (tautan berada di luar IBM.com) 9 Des 2019