什么是主题模型?

作者

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Business Development + Partnerships

IBM Research

什么是主题模型?

自然语言处理 (NLP) 中,主题建模是一种文本挖掘技术,它对大量文本集进行无监督学习,以生成一组术语摘要,这些术语摘要代表了整个文本集的主要主题集。1主题模型有助于文本分类和信息检索任务。

主题模型专门识别文本数据集中的常见关键字或短语,并将这些词语归入多个主题。其目的是发现一组文件的潜在主题或专题特征。因此,主题模型是一种基于机器学习的文本分析形式,用于对大型文本语料库进行主题注释。2

用户可以使用 scikit-learn 的自然语言工具包 (NLTK) 和 Python 中的gensim 轻松生成主题模型。

专家为您带来最新的 AI 趋势

获取有关最重要且最有趣的 AI 新闻的精选洞察分析。订阅我们的每周 Think 时事通讯。请参阅 IBM 隐私声明

谢谢!您已订阅。

您的订阅将以英语提供。您会在每份时事通讯中找到一个取消订阅链接。您可以在此处管理您的订阅或取消订阅。有关更多信息,请参阅我们的 IBM 隐私声明

主题建模的工作原理

作为一种无监督学习方法,主题模型不需要用户生成的训练数据标签,这与监督学习的文本分类任务不同。相反,主题模型会生成大量文档,并以词组(称为主题)的形式标注主题信息。3但是,主题模型是如何生成这些词组的呢?

主题建模本质上是将文本集合中的每个单独文档视为一个 Bag of Words 模型。这意味着主题模型算法忽略了词序和上下文,只关注单词在每个文档中出现的频率以及它们同时出现的频率。4

大多数主题建模方法都是从生成文档-词项矩阵开始的。该矩阵对文本数据集进行建模,以文档作为行、单词作为列,或者相反。矩阵中的值表示给定单词在每个文档中出现的频率。然后,可以使用该矩阵生成一个矢量空间,其中 n 个词等于 n 维。给定行的值表示该文档在矢量空间中的位置。因此,使用相似词组中的单词且频率相近的文档在矢量空间中会更接近。从这里开始,主题模型将矢量空间中的邻近度视为共享相似概念内容或主题的文档。5

然而,主题模型并非 Bag of Words 的同义词。后者仅会计算文档集合中单词的出现数量,而主题模型则会将通常共同出现的单词划分为主题集。每个主题均会被建模为单词词汇表中的一个概率分布模型。然后,集合中的每个文档均会根据这些主题进行表示。6通过此方式,主题模型本质上是尝试对生成相关文档的话语(即主题)进行逆向工程。7

Mixture of Experts | 12 月 12 日,第 85 集

解码 AI:每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见,带来最新的 AI 资讯与深度解析。

主题建模算法的类型

主题建模算法与其说是一项任务的替代方法,不如说是为了解决最初在 Bag of Words 模型中发现的问题而进行的连续改进。词频-逆文档频率 (TF-IDF) 是对 Bag of Words 模型的一种改进,它通过考虑每个词在整个文本集合中每个文档的出现频率,来解决那些常见但语义上无关紧要的词汇所导致的问题。潜在语义分析建立在 TF-IDF 之上,主要目的是解决多义词和同义词问题。这催生了概率潜在语义分析,并从中发展出潜在狄利克雷分配。后者的显著特征是集合中的所有文档共享同一组主题,尽管比例各不不同。8

潜在语义分析

潜在语义分析 (LSA)(也称为潜在语义索引)采用一种称为奇异值分解的技术,以减少文档-术语矩阵的稀疏性。这就缓解了多义词和同义词造成的问题,即多义词或同义词。

数据稀疏性实质上表示给定数据集中的大多数数据值为 null(即空值)。在构建文档-词项矩阵时经常会发生这种情况,其中每个单词都是一个单独的行和矢量空间维度,因为文档通常会缺少其他文档中可能更频繁出现的大多数单词。当然,文本数据预处理技术,例如停用词删除或词干提取词形还原,可以帮助减小矩阵的大小。LSA 提供了一种更有针对性的方法来降低稀疏性和维度

LSA 首先会从文档-词项矩阵开始,而该矩阵会显示每个单词在每个文档中出现的次数。由此,LSA 可生成“文档-文档”矩阵和“词频-词频”矩阵。如果文档-词项矩阵矩阵维度被定义为 d 个文档乘以 w 个单词,文档-文档矩阵则是 d 乘以 d,而词项-词项矩阵则是 w 乘以 w。文档-文档矩阵中的每个值均表示每个文档共有的单词数。词项-词项矩阵中的每个值则表示两个词项同时出现的文档数。9

利用这两个附加矩阵,LSA 算法对初始文档-术语矩阵进行奇异值分解,产生新的特殊特征向量矩阵。这些特殊矩阵将原始文档-术语关系分解为线性独立的因子。由于这些因子中有许多接近零,因此被视为零并从矩阵中删除。这将减小模型的尺寸。10

一旦通过奇异值分解降低了模型维度,LSA 算法便会使用余弦相似度来比较低维空间中的文档。余弦相似度表示矢量空间中两个矢量之间角度的测量值。它可为 -1 到 1 之间的任一值。余弦分数越高,则说明两份文档越相似。余弦相似度可由以下公式来表示,其中 xy 表示矢量空间中的两个项目矢量:11

余弦相似度公式图

隐含狄利克雷分布

潜在狄利克雷分配 (LDA)(请勿将其与线性判别分析 相混淆)是一种概率主题建模算法。这意味着它会生成主题,并根据概率分布在这些主题中对单词和文档进行分类。通过使用文档-词项矩阵,LDA 算法会根据词频和共同出现次数来生成主题分布(即,具有各自概率的关键词列表)。该假设基于:一起出现的单词可能是相似主题的其中一部分。该算法会根据给定文档中出现的单词组来分配文档主题分布。12

例如,我们为一组新闻文章生成一个 LDA 模型,其具有以下部分输出:

表示 LDA 模型的插图

在这里,我们有两个主题,可能被描述为移民(主题 1)和天文学(主题 2)。每个单词的得分是该关键词在给定主题中出现的概率。每份文档所附的概率是该文档属于混合主题的概率,考虑到该文档中每个主题的单词的分布和共同出现情况。例如,表格第一行列出了主题 1 下的边框 ,概率为 40%,主题 2 中的空格,概率为 60%。这些百分比表示各自词语在整个语料库中出现在该主题中的概率。第一行文档内容为文档 1:主题 1:.95,主题 2:.05。这意味着,根据文档 1 中出现的单词,该模型预测文档 1 95% 来自主题 1,5% 来自主题 2。换句话说,我们假设的 LDA 模型假设这些是用于生成模型的主题和主题比例。

当然,多义词尤其会给这种离散分类带来问题,例如,alien 可能指人类移民,也可能指地外生物。如果我们的算法在文档中遇到 alien,它如何确定该单词(乃至文档)属于哪个主题?

在为单词分配主题时,LDA 算法使用所谓的吉布斯采样。吉布斯采样公式为:

吉布斯公式插图

要理解该方程的精确运算和超参数,需要统计学和马尔可夫链蒙特卡洛技术(后者通常用于强化学习)方面的基础知识。尽管如此,我们可以总结该方程的主要组成部分:

  • 第一个比率表示主题 t 在文档 t 中出现的概率。该算法根据文档 d 中属于主题 t 的单词数量来计算这一概率。这本质上是问:主题 t 在文档 d 中的普遍程度如何?
  • 第二个比率表示单词 w 属于主题 t 的概率。该算法通过枚举 wt 中的出现次数和 t 中的所有词素来计算这一概率。这就需要问:在语料库的其余部分中,w 在主题 t 中出现的频率是多少?

请注意,吉布斯采样是一个迭代流程。换言之,一个单词并不会被采样一次,被分配一个主题,然后便被扔到一边。相反,吉布斯采样会对每个单词进行多次迭代,从而根据彼此的情况更新主题词的概率。13

最近的研究

主题模型有很多用例,从文学批评14到生物信息学15再到社交媒体中的仇恨言论检测。16与许多 NLP 任务一样,多年来的主题建模研究有很大一部分涉及英语和其他拉丁文字。最近,研究人员开始探索用于阿拉伯语和其他非拉丁语言的主题建模方法。17

眼下正在进行的研究还涉及主题模型的评估指标。事实上,没有一个指标已用于评估主题模型。过去的评估指标采用了定性与定量的方法。前者需要大量的领域特定知识来评估主题模式关键词项的可解释性。18定量测量则包括对数似然和连贯分数,它们旨在衡量模型中主题的可能性和连贯性。19然而,大量研究认为,此类定量指标可能并不可靠。20

为了解决与主题模型评估相关的问题,一项研究调查了人工智能应用程序,特别是大型语言模型 (LLM),作为针对特定研究目标设计和评估 LDA 模型的一种手段。该研究认为,LLM 可以帮助解决主题建模中长期存在的问题,即如何确定和评估适当数量的主题。21其他研究也转向 LLM 应用程序作为解决主题建模中评估差距的一种手段。22

相关解决方案
IBM watsonx Orchestrate

使用 IBM® watsonx Orchestrate 轻松设计可扩展的 AI 助手和代理、自动执行重复任务并简化复杂流程。

探索 watsonx Orchestrate
自然语言处理工具和 API

通过强大灵活的库、服务和应用组合,加速实现人工智能的商业价值。

深入了解 NLP 解决方案
AI 咨询与服务

通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。

深入了解人工智能服务
采取后续步骤

使用 IBM® watsonx Orchestrate 轻松设计可扩展的 AI 助手和代理、自动执行重复任务并简化复杂流程。

探索 watsonx Orchestrate 深入了解 NLP 解决方案
脚注

Daniel Jurafsky and James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd edition, 2023, https://web.stanford.edu/~jurafsky/slp3/

2 Jay Alammar 和 Maarten Grootendorst,《大型语言模型实践》,O’Reilly,2024 年。

3  David Blei,“概率主题模型”,《ACM 通信》,第 55 卷,第 4 期,2012 年,第 77-84 页。

4  Matthew Jockers,《面向文学专业学生的 R 语言文本分析》,Springer,2014 年。

5 Cole Howard、Hobson Lane 和 Hannes Hapke,《自然语言处理实践》,Manning Publications,2019 年。Sowmya Vajjala、Bodhisattwa Majumder、Anuj Gupta、Harshit Surana,《实用自然语言处理》,O’Reilly,2020 年。

6 Chandler Camille May,“主题建模的理论与实践”,专题论文,约翰斯·霍普金斯大学,2022 年。

7 《实用自然语言处理》,O’Reilly。David Blei,“概率话题模型”,《ACM 通信》,第 55 卷,第 4 期,2012 年,第 77-84 页。

8 Cole Howard、Hobson Lane 和 Hannes Hapke,《自然语言处理实践》,Manning Publications,Deerwester,“通过潜在语义分析编制索引”,David Blei,“概率主题模型”,《ACM 通信》,第 55 卷,第 4 期,2012 年,第 77-84 页。

9 Hana Nelson, Essential Math for AI, O’Reilly, 2023. Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer, and Richard Harshman, “Indexing by Latent Semantic Analysis,” Journal of the American Society for Information Science, Vol. 41, No. 6, 1990, pp. 391-407, https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9

10 Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer, and Richard Harshman, “Indexing by Latent Semantic Analysis,” Journal of the American Society for Information Science, Vol. 41, No. 6, 1990, pp. 391-407, https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9

11  Elsa Negre,《信息和推荐系统》 ,第 4 卷,Wiley-ISTE,2015 年。Hana Nelson,《AI 的基本数学》,O’Reilly,2023 年。

12  Sowmya Vajjala、Bodhisattwa Majumder、Anuj Gupta、Harshit Surana,《实用自然语言处理》,O'Reilly,2020 年。David Blei、Andrew Ng 和 Michael Jordan,“隐含狄利克雷分布”,Journal of Machine Learning Research,第 3 卷,2003 年,第 993-1022 页。

13 Zhiyuan Chen 和 Bing Liu,“面向 NLP 应用的主题模型”,《机器学习与数据科学百科全书》,Springer,2020 年。

14 Derek Greene, James O’Sullivan, and Daragh O’Reilly, “Topic modelling literary interviews from The Paris Review,” Digital Scholarship in the Humanities, 2024, https://academic.oup.com/dsh/article/39/1/142/7515230?login=false

15 Yichen Zhang, Mohammadali (Sam) Khalilitousi, and Yongjin Park, “Unraveling dynamically encoded latent transcriptomic patterns in pancreatic cancer cells by topic modeling,” Cell Genomics, Vol. 3, No. 9, 2023, https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10504675/

16 Richard Shear, Nicholas Johnson Restrepo, Yonatan Lupu, and Neil F. Johnson, “Dynamic Topic Modeling Reveals Variations in Online Hate Narratives,” Intelligent Computing, 2022, https://link.springer.com/chapter/10.1007/978-3-031-10464-0_38

17 Abeer Abuzayed and Hend Al-Khalifa, “BERT for Arabic Topic Modeling: An Experimental Study on BERTopic Technique,” Procedia Computer Science, 2021, pp. 191-194, https://www.sciencedirect.com/science/article/pii/S1877050921012199 . Raghad Alshalan, Hend Al-Khalifa, Duaa Alsaeed, Heyam Al-Baity, and Shahad Alshalan, “Detection of Hate Speech in COVID-19--Related Tweets in the Arab Region: Deep Learning and Topic Modeling Approach,” Journal of Medical Internet Research, Vol. 22, No. 12, 2020, https://www.jmir.org/2020/12/e22609

18 Matthew Gillings and Andrew Hardie, “The interpretation of topic models for scholarly analysis: An evaluation and critique of current practice,” Digital Scholarship in the Humanities, Vol. 38, No. 2, 2023, pp. 530–543, https://academic.oup.com/dsh/article-abstract/38/2/530/6957052

19 Chandler Camille May,“主题建模的理论与实践”,Dissertation,约翰斯·霍普金斯大学,2022 年。

20 Zachary Lipton, “The Mythos of Model Interpretability: In machine learning, the concept of interpretability is both important and slippery,” Queue, Vol. 13, No. 3, 2018, pp. 31-57, https://dl.acm.org/doi/10.1145/3236386.3241340 Caitlin Doogan and Wray Buntine, “Topic Model or Topic Twaddle? Re-evaluating Semantic Interpretability Measures,” Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies” 2021, pp. 3824-3848, https://aclanthology.org/2021.naacl-main.300.pdf . Alexander Hoyle, Pranav Goel, Andrew Hian-Cheong, Denis Peskov, Jordan Boyd-Graber, and Philip Resnik, “Is Automated Topic Model Evaluation Broken? The Incoherence of Coherence,” Advances in Neural Processing Systems, vol. 34, 2021, https://proceedings.neurips.cc/paper_files/paper/2021/hash/0f83556a305d789b1d71815e8ea4f4b0-Abstract.html

21 Dominik Stammbach, Vilém Zouhar, Alexander Hoyle, Mrinmaya Sachan, and Elliott Ash, “Revisiting Automated Topic Model Evaluation with Large Language Models,” Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, 2023, https://aclanthology.org/2023.emnlp-main.581

22 Eric Chagnon, Ronald Pandolfi, Jeffrey Donatelli, and Daniela Ushizima, “Benchmarking topic models on scientific articles using BERTeley,” Natural Language Processing Journal, Vol. 6, 2024, pp. 2949-7191, https://www.sciencedirect.com/science/article/pii/S2949719123000419 . Han Wang, Nirmalendu Prakash, Nguyen Khoi Hoang, Ming Shan Hee, Usman Naseem, and Roy Ka-Wei Lee, “Prompting Large Language Models for Topic Modeling,” Proceedings of the 2023 IEEE International Conference on Big Data, 2023, pp. 1236-1241, https://www.computer.org/csdl/proceedings-article/bigdata/2023/10386113/1TUOz14EiBy