Diperbarui: 11 Agustus 2024
Kontributor: Cole Stryker, Jim Holdsworth
Pemrosesan bahasa alami (NLP) adalah subbidang ilmu komputer dan kecerdasan buatan (AI) yang menggunakan machine learning untuk memungkinkan komputer memahami dan berkomunikasi dengan bahasa manusia.
NLP memungkinkan komputer dan perangkat digital untuk mengenali, memahami, dan menghasilkan teks dan ucapan dengan menggabungkan linguistik komputasi, pemodelan berbasis aturan bahasa manusia, bersama dengan pemodelan statistik, machine learning dan pembelajaran mendalam.
Penelitian NLP telah membantu memungkinkan era AI generatif, mulai dari keterampilan komunikasi model bahasa besar (LLM) hingga kemampuan model pembuatan gambar untuk memahami permintaan. NLP sudah menjadi bagian dari kehidupan sehari-hari bagi banyak orang, memberdayakan mesin pencari, mendukung chatbot untuk layanan pelanggan dengan perintah lisan, sistem GPS yang dioperasikan dengan suara, dan asisten digital penjawab pertanyaan di smartphone seperti Amazon Alexa, Apple Siri dan Cortana Microsoft.
NLP juga memainkan peran yang semakin penting dalam solusi perusahaan yang membantu mengefisienkan dan mengotomatiskan operasi bisnis, meningkatkan produktivitas karyawan, dan menyederhanakan proses bisnis.
Gunakan kerangka kerja pemilihan model ini untuk memilih model yang paling tepat sambil menyeimbangkan kebutuhan kinerja Anda dengan biaya, risiko, dan kebutuhan penerapan.
Daftar untuk mendapatkan buku putih tentang tata kelola AI
NLP memudahkan manusia untuk berkomunikasi dan berkolaborasi dengan mesin, dengan memungkinkan mereka melakukannya dalam bahasa alami manusia yang mereka gunakan setiap hari. Ini menawarkan manfaat di banyak industri dan aplikasi.
NLP sangat berguna dalam mengotomatiskan tugas-tugas sepenuhnya atau sebagian seperti dukungan pelanggan, entri data, dan penanganan dokumen. Misalnya, chatbot bertenaga NLP dapat menangani pertanyaan pelanggan rutin, membebaskan agen manusia untuk masalah yang lebih kompleks. Dalam pemrosesan dokumen, alat NLP dapat secara otomatis mengklasifikasikan, mengekstrak informasi penting, dan meringkas konten, mengurangi waktu dan kesalahan yang terkait dengan penanganan data manual. NLP memfasilitasi terjemahan bahasa, mengubah teks dari satu bahasa ke bahasa lain sambil mempertahankan makna, konteks, dan nuansa.
NLP meningkatkan analisis data dengan memungkinkan ekstraksi insight dari data teks tidak terstruktur, seperti ulasan pelanggan, kiriman media sosial, dan artikel berita. Dengan menggunakan teknik penambangan teks, NLP dapat mengidentifikasi pola, tren, dan sentimen yang tidak langsung terlihat dalam kumpulan data besar. Analisis sentimen memungkinkan ekstraksi kualitas subjektif, sikap, emosi, sarkasme, kebingungan atau kecurigaan, dari teks. Ini sering digunakan untuk mengarahkan komunikasi ke sistem atau orang yang paling mungkin membuat respons berikutnya.
Hal ini memungkinkan bisnis untuk lebih memahami preferensi pelanggan, kondisi pasar, dan opini publik. Alat NLP juga dapat melakukan kategorisasi dan meringkas teks dalam jumlah besar, sehingga memudahkan analis untuk mengidentifikasi informasi penting dan membuat keputusan berbasis data dengan lebih efisien.
NLP memberikan manfaat pencarian dengan memungkinkan sistem memahami maksud di balik pertanyaan pengguna, memberikan hasil yang lebih akurat dan relevan secara kontekstual. Alih-alih hanya mengandalkan pencocokan kata kunci, mesin pencari bertenaga NLP menganalisis makna kata dan frasa, sehingga lebih mudah menemukan informasi meskipun kueri tidak jelas atau kompleks. Ini meningkatkan pengalaman pengguna, baik dalam pencarian web, pengambilan dokumen atau sistem data perusahaan.
NLP mendukung model bahasa canggih untuk membuat teks seperti manusia untuk berbagai keperluan. Model yang telah dilatih sebelumnya, seperti GPT-4, dapat menghasilkan artikel, laporan, salinan pemasaran, deskripsi produk, dan bahkan tulisan kreatif berdasarkan prompt yang diberikan oleh pengguna. Alat-alat yang didukung NLP juga dapat membantu mengotomatiskan tugas-tugas seperti menyusun email, menulis postingan media sosial, atau dokumentasi hukum. Dengan memahami konteks, nada, dan gaya, NLP memastikan bahwa konten yang dihasilkan koheren, relevan, dan selaras dengan pesan yang dimaksudkan, menghemat waktu dan tenaga dalam pembuatan konten dengan tetap menjaga kualitas.
NLP menggabungkan kekuatan linguistik komputasi bersama dengan algoritma machine learning dan pembelajaran mendalam. Linguistik komputasi menggunakan ilmu data untuk menganalisis bahasa dan ucapan. Ini mencakup dua jenis analisis utama: analisis sintaksis dan analisis semantik. Analisis sintaksis menentukan arti kata, frasa, atau kalimat dengan menguraikan sintaksis kata-kata dan menerapkan aturan tata bahasa yang telah diprogram sebelumnya. Analisis semantik menggunakan hasil sintaksis untuk menarik makna dari kata-kata dan menafsirkan maknanya dalam struktur kalimat.
Penguraian kata dapat mengambil salah satu dari dua bentuk. Penguraian dependensi melihat hubungan antara kata, seperti mengidentifikasi kata benda dan kata kerja, sambil penguraian konstituensi kemudian membangun pohon parse (atau pohon sintaksis): perwakilan akar dan berurutan dari struktur sintaksis kalimat atau rangkaian kata. Pohon parse yang dihasilkan mendasari fungsi language translator dan pengenalan ucapan. Idealnya, analisis ini membuat hasil, baik teks atau ucapan, dapat dimengerti oleh model NLP dan orang.
Pembelajaran mandiri (SSL) khususnya berguna untuk mendukung NLP karena NLP membutuhkan sejumlah besar data berlabel untuk melatih model AI. Karena kumpulan data berlabel ini membutuhkan anotasi yang memakan waktu, sebuah proses yang melibatkan pelabelan manual oleh manusia, mengumpulkan data dalam jumlah yang cukup bisa jadi sangat sulit. Pendekatan mandiri dapat lebih menghemat waktu dan biaya, karena pendekatan ini menggantikan beberapa atau semua data pelatihan yang dilabeli secara manual.
Tiga pendekatan berbeda untuk NLP meliputi:
Aplikasi NLP paling awal adalah decision trees sederhana, yang membutuhkan aturan yang telah diprogram sebelumnya. Mereka hanya dapat memberikan jawaban sebagai tanggapan atas permintaan tertentu, seperti versi asli Moviefone, yang memiliki kemampuan generasi bahasa alami (NLG) yang belum sempurna. Karena tidak ada machine learning atau kemampuan AI dalam NLP berbasis aturan, fungsi ini sangat terbatas dan tidak dapat diskalakan.
Dikembangkan kemudian, NLP statistik secara otomatis mengekstrak, mengklasifikasikan, dan memberi label pada elemen-elemen data teks dan suara dan selanjutnya menetapkan kemungkinan statistik untuk setiap kemungkinan makna dari elemen-elemen tersebut. Hal ini bergantung pada machine learning, yang memungkinkan perincian linguistik yang canggih seperti penandaan bagian dari ucapan (part-of-speech).
Statistical NLP memperkenalkan teknik penting untuk memetakan elemen bahasa, seperti kata dan aturan tata bahasa, ke dalam representasi vektor sehingga bahasa dapat dimodelkan dengan menggunakan metode matematika (statistik), termasuk regresi atau model Markov. Hal ini menginformasikan perkembangan awal NLP seperti pemeriksa ejaan dan pesan T9 (Teks pada 9 tombol, untuk digunakan pada telepon Touch-Tone).
Baru-baru ini, model pembelajaran mendalam telah menjadi mode dominan dari NLP, dengan menggunakan volume besar data mentah yang tidak terstruktur, baik teks maupun suara, untuk menjadi lebih akurat. Pembelajaran mendalam dapat dilihat sebagai evolusi lebih lanjut dari NLP statistik. Bedanya, pembelajaran ini menggunakan model jaringan neural. Ada beberapa subkategori model:
Model urutan-ke-urutan (seq2seq): Berdasarkan on recurrent neural network (RNN), model ini sebagian besar telah digunakan untuk penerjemahan mesin dengan mengubah frasa dari satu domain (seperti bahasa Jerman) ke dalam frasa domain lain (seperti bahasa Inggris).
Model transformator: Model ini menggunakan tokenisasi bahasa (posisi setiap token, kata atau subkata) dan perhatian mandiri (menangkap dependensi dan hubungan) untuk menghitung hubungan bagian-bagian bahasa yang berbeda satu sama lain. Model transformator dapat dilatih secara efisien dengan menggunakan pembelajaran berpengawasan mandiri pada basis data teks besar. Sebuah landmark dalam model transformer adalah representasi encoder dua arah Google dari transformer (BERT), yang telah menjadi dan akan tetap menjadi dasar cara kerja mesin pencari Google.
Model autoregresif: Jenis model transformator ini dilatih secara khusus untuk memprediksi kata berikutnya secara berurutan, yang merupakan langkah besar ke depan dalam kemampuan untuk menghasilkan teks. Contoh LLM autoregresif termasuk GPT, Llama, Claude, dan Mistral sumber terbuka.
Model dasar: Model dasar yang dibuat dan dikurasi sebelumnya dapat mempercepat peluncuran upaya NLP dan meningkatkan kepercayaan dalam pengoperasiannya. Misalnya, model dasar IBM® Granite dapat diterapkan secara luas di berbagai industri. Model ini mendukung tugas NLP termasuk pembuatan konten dan ekstraksi insight. Selain itu, mode ini juga memfasilitasi retrieval-augmented generation, kerangka kerja untuk meningkatkan kualitas respons dengan menghubungkan model ke sumber pengetahuan eksternal. Model juga melakukan Named Entity Recognition (pengenalan entitas bernama) yang melibatkan identifikasi dan pengambilan informasi kunci dalam teks.
Beberapa tugas NLP biasanya membantu memproses data teks dan suara manusia dengan cara yang membantu komputer memahami hal yang dicernanya. Beberapa tugas ini meliputi:
Resolusi koreferensi
Pengenalan entitas bernama
Penandaan bagian ucapan
Disambiguasi pengertian kata
Ini adalah tugas untuk mengidentifikasi apakah dan ketika dua kata merujuk pada entitas yang sama. Contoh paling umum adalah menentukan orang atau objek yang dimaksud oleh kata ganti tertentu (misalnya, “she” = “Mary”). Namun, itu juga dapat mengidentifikasi metafora atau idiom dalam teks (misalnya di mana “bear9” bukan hewan, tetapi seorang orang yang besar dan berbulu).
NER mengidentifikasi kata atau frasa sebagai entitas yang berguna. NER mengidentifikasi “London” sebagai lokasi atau “Mary” sebagai nama orang.
Juga disebut penandaan tata bahasa, ini adalah proses menentukan ada di bagian ucapan mana kata atau sepotong teks tertentu, berdasarkan penggunaan dan konteksnya. Misalnya, bagian dari ucapan mengidentifikasi ‘make’ sebagai kata kerja dalam ‘I can make a paper plane’, dan sebagai kata benda dalam ‘What make of car do you own?’.
Ini adalah pemilihan arti kata untuk kata dengan beberapa kemungkinan arti. Ini menggunakan proses analisis semantik untuk memeriksa kata dalam konteks. Misalnya, disambiguasi arti kata membantu membedakan arti kata kerja bahasa Inggris ‘make’ dalam ‘make the grade’ (mencapai) vs. ‘make a bet’ (menempatkan). Memilah-milah kata dalam “I will be merry when I marry Mary” membutuhkan sistem NLP yang canggih.
NLP bekerja dengan menggabungkan berbagai teknik komputasi untuk menganalisis, memahami, dan menghasilkan bahasa manusia dengan cara yang dapat diproses oleh mesin. Berikut adalah ikhtisar pipa NLP khas dan langkah-langkahnya:
Prapemrosesan teks NLP menyiapkan teks mentah untuk dianalisis dengan mengubahnya menjadi format yang lebih mudah dipahami oleh mesin. Ini dimulai dengan tokenisasi, yang melibatkan pemisahan teks menjadi unit yang lebih kecil seperti kata, kalimat, atau frasa. Ini membantu memecah teks kompleks menjadi bagian-bagian yang dapat dikelola. Selanjutnya, huruf kecil diterapkan untuk menstandarkan teks dengan mengubah semua karakter menjadi huruf kecil, memastikan bahwa kata-kata seperti “Apple” dan “apple” diperlakukan sama. Penghapusan kata adalah langkah umum lainnya, di mana kata-kata yang sering digunakan seperti “is“ atau “or” difilter karena tidak menambah makna yang signifikan pada teks. Stemming atau lemmatization mengurangi kata-kata ke bentuk akarnya (misalnya, “running” menjadi “run”), sehingga lebih mudah untuk menganalisis bahasa dengan mengelompokkan berbagai bentuk kata yang sama. Selain itu, pembersihan teks menghilangkan elemen yang tidak diinginkan seperti tanda baca, karakter khusus, dan angka yang dapat mengacaukan analisis.
Setelah pra-pemrosesan, teks menjadi bersih, terstandarisasi dan siap untuk model machine learning untuk ditafsirkan secara efektif.
Ekstraksi fitur adalah proses mengubah teks mentah menjadi representasi numerik yang dapat dianalisis dan ditafsirkan oleh mesin. Ini melibatkan mengubah teks menjadi data terstruktur dengan menggunakan teknik NLP seperti Bag of Words dan TF-IDF, yang mengukur keberadaan dan pentingnya kata-kata dalam dokumen. Metode yang lebih maju termasuk penyematan kata seperti Word2Vec atau GLove, yang mewakili kata-kata sebagai vektor padat dalam ruang berlanjut, menangkap hubungan semantik antara kata-kata. Penyematan kontekstual semakin menyempurnakan hal ini dengan mempertimbangkan konteks kemunculan kata-kata, sehingga memungkinkan representasi yang lebih kaya dan lebih bernuansa.
Analisis teks melibatkan penafsiran dan ekstraksi informasi yang bermakna dari data teks melalui berbagai teknik komputasi. Proses ini mencakup tugas-tugas seperti penandaan bagian dari ucapan (POS), yang mengidentifikasi peran tata bahasa kata-kata dan named entity recognition (NER), yang mendeteksi entitas tertentu seperti nama, lokasi, dan tanggal. Penguraian ketergantungan menganalisis hubungan tata bahasa antara kata-kata untuk memahami struktur kalimat, sementara analisis sentimen menentukan nada emosional teks, dan menilai apakah teks tersebut positif, negatif, atau netral. Pemodelan topik mengidentifikasi tema atau topik dasar dari teks atau di seluruh korpus dokumen. Natural language understanding (NLU) adalah bagian dari NLP yang fokus pada analisis makna di balik kalimat. NLU memungkinkan perangkat lunak untuk menemukan arti yang serupa dalam kalimat yang berbeda atau untuk memproses kata-kata yang memiliki arti yang berbeda. Melalui teknik ini, analisis teks NLP mengubah teks yang tidak terstruktur menjadi wawasan.
Data yang telah diproses kemudian digunakan untuk melatih model machine learning, yang mempelajari pola dan hubungan di dalam data. Selama pelatihan, model menyesuaikan parameternya untuk meminimalkan kesalahan dan meningkatkan kinerjanya. Setelah dilatih, model dapat digunakan untuk membuat prediksi atau menghasilkan output pada data baru yang tidak terlihat. Efektivitas pemodelan NLP terus disempurnakan melalui evaluasi, validasi, dan penyempurnaan untuk meningkatkan akurasi dan relevansi dalam aplikasi dunia nyata.
Lingkungan perangkat lunak yang berbeda berguna di seluruh proses tersebut. Sebagai contoh, Natural Language Toolkit (NLTK) adalah rangkaian pustaka dan program untuk bahasa Inggris yang ditulis dalam bahasa pemrograman Python. Ini mendukung fungsi klasifikasi teks, tokenisasi, stemming, penandaan, parsing dan penalaran semantik. TensorFlow adalah pustaka perangkat lunak sumber terbuka dan gratis untuk machine learning dan AI yang dapat digunakan untuk melatih model untuk aplikasi NLP. Tutorial dan sertifikasi berlimpah bagi mereka yang tertarik untuk membiasakan diri dengan alat tersebut.
Bahkan model NLP canggih pun tidak sempurna, sama seperti ucapan manusia rentan terhadap kesalahan. Seperti halnya teknologi AI lainnya, NLP hadir dengan potensi kekurangan. Bahasa manusia dipenuhi dengan ambiguitas yang membuat programmer kesulitan menulis perangkat lunak yang dapat menginterpretasikan makna dari teks atau data suara dengan tepat. Bahasa manusia mungkin membutuhkan waktu bertahun-tahun bagi manusia untuk belajar, dan banyak yang tidak pernah berhenti belajar. Namun, programmer harus mengajarkan aplikasi berbasis bahasa alami untuk mengenali dan memahami ketidakteraturan sehingga aplikasi mereka dapat menjadi akurat dan berguna. Risiko terkait mungkin termasuk:
Seperti halnya fungsi AI lainnya, data bias yang digunakan dalam pelatihan akan membuat jawaban menjadi tidak akurat. Makin beragam pengguna fungsi NLP, makin signifikan risiko ini, seperti dalam layanan pemerintah, layanan kesehatan, dan interaksi SDM. Kumpulan data pelatihan yang diambil dari web, misalnya, cukup rentan terhadap bias.
Seperti dalam pemrograman, ada risiko sampah masuk, sampah keluar (GIGO). Pengenalan ucapan, yang juga disebut speech-to-text, adalah tugas untuk mengubah data suara menjadi data teks yang dapat diandalkan. Tetapi solusi NLP dapat menjadi rancu jika input diucapkan dalam dialek yang tidak jelas, bergumam, terlalu penuh dengan bahasa gaul, homonim, tata bahasa yang keliru, idiom, fragmen, salah pengucapan, kontraksi, atau direkam dengan terlalu banyak kebisingan di latar belakang.
Kata-kata baru terus diciptakan atau diimpor. Konvensi tata bahasa dapat berkembang atau sengaja dipatahkan. Dalam kasus ini, NLP dapat membuat tebakan terbaik atau mengakui bahwa NLP tidak yakin, dan bagaimanapun juga, hal ini menciptakan komplikasi.
Ketika orang berbicara, penyampaian verbal atau bahkan bahasa tubuh mereka dapat memberikan makna yang sama sekali berbeda dari kata-kata saja. Membesar-besarkan untuk efek, menekankan kata-kata yang penting atau untuk tujuan sarkasme dapat menimbulkan kebingungan bagi NLP, yang menjadikan analisis semantik menjadi lebih sulit dan kurang dapat diandalkan.
Aplikasi NLP sekarang dapat ditemukan di hampir semua industri.
Dalam transaksi keuangan, nanodetik dapat membuat perbedaan antara keberhasilan dan kegagalan saat mengakses data, atau melakukan perdagangan atau transaksi. NLP dapat mempercepat penggalian informasi dari laporan keuangan, laporan tahunan dan laporan peraturan, perilisan berita, atau bahkan media sosial.
Insight dan terobosan medis baru dapat tiba lebih cepat daripada yang dapat diimbangi oleh banyak tenaga profesional layanan kesehatan. Alat berbasis NLP dan AI dapat membantu mempercepat analisis catatan kesehatan dan makalah penelitian medis, membuat keputusan medis yang lebih baik, atau membantu mendeteksi atau bahkan mencegah kondisi medis.
NLP dapat menganalisis klaim untuk mencari pola yang dapat mengidentifikasi area yang menjadi perhatian dan menemukan inefisiensi dalam pemrosesan klaim, yang mengarah pada optimasi pemrosesan dan upaya karyawan yang lebih besar.
Hampir semua kasus hukum mungkin memerlukan peninjauan terhadap tumpukan dokumen, informasi latar belakang, dan preseden hukum. NLP dapat membantu mengotomatiskan penemuan hukum, membantu dalam mengelola informasi, mempercepat tinjauan, dan memastikan bahwa semua detail yang relevan dicatat untuk dipertimbangkan.
Mempercepat nilai bisnis kecerdasan buatan dengan portofolio pustaka, layanan, dan aplikasi yang kuat dan fleksibel.
Menanamkan AI bahasa alami yang canggih ke dalam aplikasi komersial dengan pustaka dalam kontainer yang dirancang agar mitra IBM mendapat fleksibilitas yang lebih besar.
Granite adalah seri model dasar LLM unggulan IBM berdasarkan arsitektur transformator khusus decoder. Model bahasa Granite dilatih pada data perusahaan tepercaya yang mencakup data internet, akademisi, kode, hukum, dan keuangan.
Pelajari konsep dasar untuk AI dan AI generatif, termasuk rekayasa prompt, model bahasa yang besar, dan proyek sumber terbuka terbaik.
Temukan bagaimana pemrosesan bahasa alami dapat membantu Anda berkomunikasi lebih alami dengan komputer.
Perkenalkan Scout Advisor, alat NLP inovatif yang dibangun di atas platform IBM® watsonx khusus untuk Sevilla Fútbol Club Spanyol.
Artikel ini menjelaskan bagaimana IBM Watson dapat membantu Anda menggunakan layanan NLP untuk mengembangkan aplikasi yang semakin cerdas, dengan fokus pada pemahaman bahasa alami.