Model topik adalah metode NLP tanpa pengawasan untuk meringkas data teks melalui kelompok kata. Model ini membantu dalam klasifikasi teks dan tugas pencarian informasi.
Dalam pemrosesan bahasa alami (NLP), pemodelan topik adalah teknik penambangan teks yang menerapkan pembelajaran tanpa pengawasan pada kumpulan teks besar untuk menghasilkan kumpulan istilah ringkasan yang berasal dari dokumen-dokumen yang mewakili keseluruhan kumpulan topik utama dalam koleksi tersebut.1 Model topik secara khusus mengidentifikasi kata kunci atau frasa umum dalam kumpulan data teks dan mengelompokkan kata-kata tersebut ke dalam sejumlah topik. Dengan demikian, model topik bertujuan untuk bertujuan untuk mengungkap topik atau tema laten yang menjadi ciri dari sekumpulan dokumen. Dengan cara ini, model topik adalah bentuk analisis teks berbasis machine learning yang digunakan untuk membuat anotasi tematik pada korpus teks yang besar.2
Pengguna dapat dengan mudah membuat model topik menggunakan toolkit bahasa alami (NLTK) dari scikit-learn dan gensim di Python.
Sebagai metode pembelajaran tanpa pengawasan, model topik tidak memerlukan label data pelatihan yang dibuat pengguna, seperti pada tugas klasifikasi teks yang diawasi. Sebaliknya, model topik menghasilkan, dan dengan demikian memberi anotasi, koleksi besar dokumen dengan informasi tematik dalam bentuk kelompok kata yang dikenal sebagai topik.3 Namun, bagaimana model topik menghasilkan kelompok kata-kata ini?
Pemodelan topik pada dasarnya memperlakukan setiap dokumen individu dalam kumpulan teks sebagai model bag of words. Ini berarti bahwa algoritma pemodelan topik mengabaikan urutan kata dan konteks, dan hanya berfokus pada seberapa sering kata-kata muncul, dan seberapa sering kata-kata tersebut muncul bersama, dalam setiap dokumen.4
Sebagian besar pendekatan pemodelan topik dimulai dengan membuat matriks istilah dokumen. Matriks ini memodelkan kumpulan data teks dengan dokumen sebagai baris dan kata per kata sebagai kolom, atau sebaliknya. Nilai dalam matriks menunjukkan frekuensi kemunculan kata tertentu dalam setiap dokumen. Matriks ini kemudian dapat digunakan untuk menghasilkan ruang vektor, di mana n kata sama dengan n dimensi. Nilai baris yang diberikan menunjukkan posisi dokumen tersebut dalam ruang vektor. Dokumen yang menggunakan kata-kata dalam kelompok yang sama dan dengan frekuensi yang sebanding akan berada lebih dekat satu sama lain dalam ruang vektor. Dari sini, model topik memperlakukan kedekatan dalam ruang vektor sebagai dokumen yang memiliki konten konseptual atau topik yang sama.5
Namun, model topik tidak identik dengan bag of words. Sementara yang terakhir hanya menghitung keberadaan kata dalam kumpulan dokumen, model topik mengelompokkan kata-kata yang sering muncul bersama ke dalam kumpulan topik. Setiap topik dimodelkan sebagai distribusi probabilitas di seluruh kosakata. Setiap dokumen dalam koleksi kemudian direpresentasikan berdasarkan topik-topik tersebut.6 Dengan cara ini, model topik pada dasarnya mencoba untuk merekayasa balik wacana (yaitu, topik) yang menghasilkan dokumen yang dimaksud.7
Algoritma pemodelan topik bukanlah metode alternatif untuk satu tugas, melainkan pengembangan berurutan yang dimaksudkan untuk menyelesaikan masalah yang awalnya ditemukan pada model bag of words. Term frequency-inverse document frequency (TF-IDF) adalah modifikasi dari bag of words yang dimaksudkan untuk mengatasi masalah yang dihasilkan dari kata-kata yang umum namun secara semantik tidak relevan dengan memperhitungkan prevalensi setiap kata di setiap dokumen dalam kumpulan teks. Analisis semantik laten dibangun di atas TF-IDF dengan tujuan utama untuk mengatasi polisemi dan sinonimi. Hal ini melahirkan analisis semantik laten probabilistik, yang kemudian berkembang menjadi alokasi laten Dirichlet. Karakteristik yang membedakan yang terakhir adalah bahwa semua dokumen dalam koleksi memiliki topik yang sama, meskipun dalam proporsi yang berbeda.8
Analisis semantik laten (LSA) (juga disebut pengindeksan semantik laten) menerapkan teknik yang dikenal sebagai dekomposisi nilai tunggal untuk mengurangi sparsitas dalam matriks istilah dokumen. Hal ini mengurangi masalah yang diakibatkan oleh polisemi dan sinonimi—yaitu, satu kata dengan banyak arti atau beberapa kata dengan satu arti yang sama.
Pada dasarnya, sparsitas data menunjukkan ketika sebagian besar nilai data dalam kumpulan data tertentu adalah nol (dengan kata lain, kosong). Hal ini sering terjadi ketika membuat matriks istilah dokumen, di mana setiap kata merupakan baris dan dimensi ruang vektor yang terpisah, karena dokumen sering kali tidak memiliki sebagian besar kata yang mungkin lebih sering muncul di dokumen lain. Tentu saja, teknik prapemrosesan data teks, seperti penghapusan stopword atau stemming dan lematisasi, dapat membantu mengurangi ukuran matriks. LSA menawarkan pendekatan yang lebih bertarget untuk mengurangi sparsitas dan dimensi.
LSA dimulai dengan matriks istilah dokumen, yang menampilkan berapa kali setiap kata muncul di setiap dokumen. Dari sini, LSA menghasilkan matriks dokumen-dokumen dan matriks istilah-istilah. Jika dimensi matriks dokumen-istilah didefinisikan sebagai d dokumen dikali w kata, maka matriks dokumen-dokumen adalah d dikali d dan matriks istilah-istilah w dikali w. Setiap nilai dalam matriks dokumen-dokumen menunjukkan jumlah kata yang dimiliki oleh setiap dokumen. Setiap nilai dalam matriks istilah-istilah menunjukkan jumlah dokumen yang memiliki dua istilah yang sama.9
Dengan menggunakan dua matriks tambahan ini, algoritme LSA melakukan dekomposisi nilai singular pada matriks istilah dokumen awal, menghasilkan matriks khusus vektor eigen yang baru. Matriks khusus ini memecah hubungan dokumen-istilah asli menjadi faktor-faktor independen secara linier. Karena banyak dari faktor-faktor ini mendekati nol, nilai ini diperlakukan sebagai nol dan dikeluarkan dari matriks. Hal ini mengurangi dimensi model.10
Setelah dimensi model dikurangi melalui dekomposisi nilai tunggal, algoritme LSA membandingkan dokumen dalam ruang dimensi yang lebih rendah menggunakan kesamaan kosinus. Kesamaan kosinus menandakan pengukuran sudut antara dua vektor dalam ruang vektor. Ini mungkin nilai antara -1 dan 1. Semakin tinggi skor kosinus, semakin mirip dua item yang dipertimbangkan. Kesamaan cosinus diwakili oleh rumus ini, di mana x dan y menunjukkan dua vektor item dalam ruang vektor:11
Alokasi Dirichlet laten (LDA) — jangan disamakan dengan analisis diskriminan linier — adalah algoritme pemodelan topik probabilistik. Ini berarti algoritme ini menghasilkan topik, mengklasifikasikan kata-kata dan dokumen di antara topik-topik tersebut, sesuai dengan distribusi probabilitas. Dengan menggunakan matriks istilah dokumen, algoritme LDA menghasilkan distribusi topik (yaitu daftar kata kunci dengan probabilitasnya masing-masing) sesuai dengan frekuensi kata dan kemunculan bersamaan. Asumsi ini adalah bahwa kata-kata yang muncul bersama kemungkinan merupakan bagian dari topik yang sama. Algoritme menetapkan distribusi topik dokumen berdasarkan kelompok kata yang muncul dalam dokumen yang diberikan.12
Misalnya, katakanlah kita membuat model LDA untuk kumpulan artikel berita yang memiliki output parsial berikut:
Di sini, kita memiliki dua topik yang mungkin digambarkan sebagai imigrasi (Topik 1) dan astronomi (Topik 2). Skor yang diberikan pada setiap kata adalah probabilitas munculnya kata kunci tersebut pada topik yang ditentukan. Probabilitas yang melekat pada setiap dokumen merupakan probabilitas masing-masing dokumen untuk termasuk dalam campuran topik yang diberikan distribusi dan kemunculan kata dari masing-masing topik dalam dokumen tersebut. Misalnya, baris pertama tabel mencantumkan batas di bawah Topik 1 dengan probabilitas 40% dan spasi di Topik 2 dengan probabilitas 60%. Persentase ini menunjukkan kemungkinan munculnya istilah masing-masing dalam topik tersebut di seluruh korpus. Baris dokumen pertama bertuliskan Dokumen 1: Topik 1: .95, Topik 2: .05. Artinya, berdasarkan kemunculan kata-kata dalam Dokumen 1, model memproyeksikan Dokumen 1 sebagai 95% berasal dari Topik 1 dan 5% berasal dari Topik 2. Dengan kata lain, model LDA hipotetis kami mengasumsikan bahwa ini adalah topik dan proporsi topik tersebut yang digunakan untuk menghasilkan model.
Tentu saja, kata-kata polisemi secara khusus menimbulkan masalah untuk kategorisasi yang terpisah—misalnya, alien dapat merujuk pada orang pendatang atau makhluk luar angkasa. Jika algoritme kami menemukan kata asing dalam sebuah dokumen, bagaimana algoritme tersebut menentukan ke dalam topik mana kata tersebut (dan dengan demikian, dokumen tersebut) berada?
Saat menetapkan topik ke kata-kata, algoritme LDA menggunakan hal yang dikenal sebagai pengambilan sampel Gibbs. Rumus pengambilan sampel Gibbs adalah:
Memahami operasi pasti dan hiperparameter persamaan ini memerlukan pengetahuan dasar dalam statistik dan teknik Markov Chain Monte Carlo (Monte Carlo sering digunakan dalam pembelajaran penguatan). Meskipun demikian, kita dapat meringkas komponen utama persamaan tersebut:
Perhatikan bahwa pengambilan sampel Gibbs adalah proses berulang. Artinya, sebuah kata tidak diambil sampelnya sekali, diberi topik, dan dibuang. Sebaliknya, pengambilan sampel Gibbs melewatkan setiap kata melalui beberapa iterasi, memperbarui probabilitas kata topik berdasarkan satu sama lain.13
Ada banyak contoh penggunaan untuk model topik, mulai dari kritik sastra14 hingga bioinformatika15 hingga deteksi ujaran kebencian di media sosial.16 Seperti banyak tugas NLP, proporsi yang signifikan dari penelitian pemodelan topik selama bertahun-tahun menyangkut bahasa Inggris dan bahasa aksara Latin lainnya. Namun, baru-baru ini, penelitian telah mengeksplorasi pendekatan pemodelan topik untuk bahasa Arab dan bahasa non-Latin lainnya.17
Penelitian yang sedang berlangsung juga membahas metrik evaluasi untuk model topik. Memang, tidak ada satu metrik yang digunakan untuk mengevaluasi model topik. Metrik evaluasi masa lalu telah mengadopsi pendekatan kualitatif dan kuantitatif. Yang pertama memerlukan pengetahuan spesifik domain yang signifikan untuk mengevaluasi istilah kunci mode topik untuk interpretabilitas.18 Pengukuran kuantitatif terdiri atas skor log-likelihood dan coherence, yang bertujuan untuk mengukur kemungkinan dan kohesi topik dalam suatu model.19 Namun, banyak penelitian berpendapat bahwa metrik kuantitatif tersebut mungkin tidak dapat diandalkan.20
Dalam upaya untuk menyelesaikan masalah yang berkaitan dengan evaluasi model topik, satu studi menyelidiki aplikasi kecerdasan buatan, terutama model bahasa besar (LLM), sebagai sarana merancang dan mengevaluasi model LDA untuk tujuan penelitian tertentu. LLM, menurut penelitian tersebut, dapat membantu menyelesaikan masalah yang sudah lama ada dalam pemodelan topik, yaitu, bagaimana menentukan dan mengevaluasi jumlah topik yang tepat.21 Penelitian lain juga beralih ke aplikasi LLM sebagai sarana untuk mengatasi kesenjangan evaluasi dalam pemodelan topik.22
IBM Granite adalah rangkaian model AI kami yang terbuka, berkinerja, dan tepercaya, yang dirancang untuk bisnis dan dioptimalkan untuk menskalakan aplikasi AI Anda. Jelajahi opsi bahasa, kode, deret waktu, dan batasan.
Temukan bagaimana pemrosesan bahasa alami dapat membantu Anda berkomunikasi lebih alami dengan komputer.
Kami menyurvei 2.000 organisasi tentang inisiatif AI mereka untuk mengetahui apa yang berhasil, apa yang tidak, dan cara Anda untuk maju.
Jelajahi situs web IBM Developer untuk mengakses blog, artikel, buletin, dan mempelajari lebih lanjut tentang AI yang dapat disematkan IBM.
Rancang asisten dan agen AI yang dapat diskalakan dengan mudah, otomatiskan tugas berulang, dan sederhanakan proses kompleks dengan IBM watsonx Orchestrate.
Mempercepat nilai bisnis kecerdasan buatan dengan portofolio pustaka, layanan, dan aplikasi yang kuat dan fleksibel.
Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.
1 Daniel Jurafsky and James Martin, Speech dan Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd edition, 2023, https://web.stanford.edu/~jurafsky/slp3/
2 Jay Alammar dan Maarten Grootendorst, Hands-On Large Language Models, O’Reilly, 2024.
3 David Blei, “Probabilistic Topic Models,” Communications of the ACM, Vol. 55, No. 4, 2012, hlm. 77-84.
4 Matthew Jockers, Analisis Teks dengan R untuk Mahasiswa Sastra, Springer, 2014.
5 Cole Howard, Hobson Lane, dan Hannes Hapke, Natural Language Processing in Action, Manning Publications, 2019. Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana Practical Natural Language Processing, O’Reilly, 2020.
6 Chandler Camille May, “Topic Modeling in Theory and Practice,” Dissertation, John Hopkins University, 2022.
7 Pemrosesan Bahasa Alami Praktis, O’Reilly. David Blei, “Probabilistic Topic Models,” Communications of the ACM, Vol. 55, No. 4, 2012, hlm. 77-84.
8 Cole Howard, Hobson Lane, dan Hannes Hapke, Natural Language Processing in Action, Manning Publications, Deerwester, “Indexing by Latent Semantic Analysis,” David Blei, “Probabilistic Topic Models,” Communications of the ACM, Vol. 55, No. 4, 2012, hlm. 77-84.
9 Hana Nelson, Essential Math for AI, O’Reilly, 2023. Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer, dan Richard Harshman, “Indexing by Latent Semantic Analysis,” Journal of the American Society for Information Science, Vol. 41, No. 6, 1990, hlm. 391-407, https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9
10 Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer, dan Richard Harshman, “Indexing by Latent Semantic Analysis,” Journal of the American Society for Information Science, Vol. 41, No. 6, 1990, hlm. 391-407, https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9
11 Elsa Negre, Information and Recommender Systems, Vol. 4, Wiley-ISTE, 2015. Hana Nelson, Essential Math for AI, O’Reilly, 2023.
12 Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana Practical Natural Language Processing, O’Reilly, 2020. David Blei, Andrew Ng, dan Michael Jordan, “Lantent Dirichlet Allocation,” Journal of Machine Learning Research, Vol. 3, 2003, hlm. 993-1022.
13 Zhiyuan Chen dan Bing Liu, “Topic Models for NLP Applications,” Encyclopedia of Machine Learning and Data Science, Springer, 2020.
14 Derek Greene, James O'Sullivan, dan Daragh O'Reilly, "Topic modeling literature interview from The Paris Ulasan," Digital Scholarship in the Humanities, 2024, https://academic.oup.com/dsh/article/39/ 1/142/7515230?login=false
15 Yichen Zhang, Mohammadali (Sam) Khalilitousi, dan Yongjin Park, “Unraveling dynamically encoded latent transcriptomic patterns in pancreatic cancer cells by topic modeling,” Cell Genomics, Vol. 3, No. 9, 2023, https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10504675/
16 Richard Shear, Nicholas Johnson Restrepo, Yonatan Lupu, dan Neil F. Johnson, “Dynamic Topic Modeling Reveals Variations in Online Hate Narratives,” Intelligent Computing, 2022, https://link.springer.com/chapter/10.1007/978-3-031-10464-0_38
17 Abeer Abuzayed dan Hend Al-Khalifa, “BERT for Arabic Topic Modeling: An Experimental Study on BERTopic Technique,” Procedia Computer Science, 2021, hlm. 191-194, https://www.sciencedirect.com/science/article/pii/S1877050921012199 . Raghad Alshalan, Hend Al-Khalifa, Duaa Alsaeed, Heyam Al-Baity, dan Shahad Alshalan, "Deteksi Ujaran Kebencian pada Tweet Terkait COVID 19 di Wilayah Arab: Pendekatan Pembelajaran Mendalam dan Pemodelan Topik," Journal of Medical Internet Research, Vol. 22, Nomor 12, 2020, https://www.jmir.org/2020/12/e22609
18 Matthew Gillings dan Andrew Hardie, “Interpretasi model topik untuk analisis ilmiah: Evaluasi dan kritik praktik saat ini,” Digital Scholarship in the Humanities, Vol. 38, No. 2, 2023, hlm. 530–543, https://academic.oup.com/dsh/article-abstract/38/2/530/6957052
19 Chandler Camille May, "Pemodelan Topik dalam Teori dan Praktik," Disertasi, Universitas John Hopkins, 2022.
20 Zachary Lipton, “Mitos Interpretabilitas Model: Dalam machine learning, konsep interpretabilitas merupakan hal yang penting sekaligus berjalur,” Queue, Vol. 13, No. 3, 2018, hal. 31-57, https://dl.acm.org/doi/10.1145/3236386.3241340 Caitlin Doogan dan Wray Buntine, “Topic Model or Topic Twaddle? Re-evaluating Semantic Interpretability Measures,” Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies” 2021, hlm. 3824-3848, https://aclanthology.org/2021.naacl-main.300.pdf . Alexander Hoyle, Pranav Goel, Andrew Hian-Cheong, Denis Peskov, Jordan Boyd-Graber, dan Philip Resnik, “Is Automated Topic Model Evaluation Broken? The Incoherence of Coherence,” Advances in Neural Processing Systems, vol. 34, 2021, https://proceedings.neurips.cc/paper_files/paper/2021/hash/0f83556a305d789b1d71815e8ea4f4b0-Abstract.html
21 Dominik Stammbach, Vilém Zouhar, Alexander Hoyle, Mrinmaya Sachan, dan Elliott Ash, “Revisiting Automated Topic Model Evaluation with Large Language Models,” Prosiding Konferensi 2023 mengenai Metode Empiris dalam Pemrosesan Bahasa Alami, 2023, https://aclanthology.org/2023.emnlp-main.581
22 Eric Chagnon, Ronald Pandolfi, Jeffrey Donatelli, dan Daniela Ushizima, “Benchmarking topic models on scientific articles using BERTeley,” Natural Language Processing Journal, Vol. 6, 2024, hlm. 2949-7191, https://www.sciencedirect.com/science/article/pii/S2949719123000419 . Han Wang, Nirmalendu Prakash, Nguyen Khoi Hoang, Ming Shan Hee, Usman Naseem, dan Roy Ka-Wei Lee, "Prompting Large Language Models for Topic Modeling," Prosiding Konferensi Internasional IEEE 2023 tentang Big Data, 2023, hlm. 1236-1241, 1236-1241, https://www.computer.org/csdl/proceedings-article/bigdata/2023/10386113/1TUOz14EiBy