什么是无监督学习？| IBM

什么是无监督学习？

无监督学习，也称为无监督机器学习，它使用机器学习 (ML) 算法分析和聚类未标记数据集。这些算法发现隐藏的模式或数据分组，而无需人工干预。

无监督学习能够发现信息的相似性和差异性，使其成为探索性数据分析、交叉销售策略、客户细分和图像识别的理想解决方案。

行业时事通讯

专家为您带来最新的 AI 趋势

获取有关最重要且最有趣的 AI 新闻的精选洞察分析。订阅我们的每周 Think 时事通讯。请参阅 IBM 隐私声明。

常见的无监督学习方法

无监督学习模型用于三项主要任务：聚类、关联和降维。下面，我们将定义每种学习方法，并重点介绍常用算法和有效进行学习的方法。

聚类

聚类是一种数据挖掘技术，它根据未标记数据的相似性或差异对其进行分组。聚类算法用于将原始的、未分类的数据对象处理成由信息中的结构或模式表示的组。聚类算法可分为几种类型，具体包括排他、重叠、层次和概率型。

排他和重叠聚类

排他聚类这种分组形式规定一个数据点只能存在于一个聚类。这也可以称为“硬”聚类。K 均值聚类是一种常见的排他性聚类方法，其中数据点被分配到 K 个组中，其中 K 表示基于与每个组质心的距离的聚类数。距离给定质心最近的数据点将聚类到同一类别下。较大的 K 值表示较小的分组，更多的粒度，而较小的 K 值将具有较大的分组和较低的粒度。K 均值聚类通常用于市场细分、文档聚类、图像分割和图像压缩。

重叠聚类不同于排他聚类，因为它允许数据点属于具有不同成员资格程度的多个聚类。“软”或模糊 k 均值聚类是重叠聚类的一个示例。

层次聚类

层次聚类，也称为层次聚类分析 (HCA)，是一种无监督聚类算法，可以通过两种方式进行分类：凝聚式或分裂式。

凝聚聚类被视为“自下而上的方法”。其数据点最初被隔离为单独的分组，然后根据相似性迭代地合并在一起，直到获得一个聚类。通常使用四种不同的方法来衡量相似度：

Ward 链接：该方法指出两个聚类之间的距离由聚类合并后平方和的增加来定义。
平均链接：此方法由每个聚类中两点之间的平均距离定义。
完全（或最大）链接：此方法由每个聚类中两点之间的最大距离定义。
单个（或最小）链接：此方法由每个聚类中两点之间的最小距离定义。

欧几里得距离是用于计算这些距离的最常见指标；不过，聚类文献中也引用了其他指标，例如曼哈顿距离。

分裂聚类可以定义为凝聚聚类的对立面；它采用“自上而下”的方法。这种情况下，将根据数据点之间的差异分割单个数据聚类。分裂聚类并不常用，但在层次聚类中仍值得注意。这些聚类过程通常使用聚类树图来可视化；聚类树图是一种树状图，记录每次迭代时数据点的合并或分裂。

概率聚类

概率模型是一种无监督技术，可以帮助我们解决密度估计或“软”聚类问题。在概率聚类中，数据点根据其属于特定分布的可能性进行聚类。高斯混合模型 (GMM) 是最常用的概率聚类方法之一。

高斯混合模型被归类为混合模型，这意味着它们是由未指定数量的概率分布函数组成的。GMM 主要用来确定给定数据点属于哪种高斯或正态概率分布。如果均值或方差已知，我们就可以确定给定数据点属于哪种分布。然而，在 GMM 中，这些变量是未知的，因此我们假设存在一个潜在或隐藏的变量来适当地对数据点进行聚类。虽然不是必须使用期望最大化 (EM) 算法，但它通常用于估算给定数据点落入特定数据聚类的分配概率。

关联规则

关联规则是一种基于规则的方法，用于查找给定数据集中的变量之间的关系。这些方法经常用于购物篮分析，使公司能够更好地了解不同产品之间的关系。了解客户的消费习惯使企业能够开发更好的交叉销售策略和推荐引擎。这方面的示例包括 Amazon 的“购买此商品的顾客也购买了”或 Spotify 的“每周发现”播放列表。虽然有几种不同的算法用于生成关联规则（例如 Apriori、Eclat 和 FP-Growth），但 Apriori 算法使用最广泛。

Apriori 算法

借由购物篮分析，Apriori 算法得到了普及，为音乐平台和在线零售商提供了不同的推荐引擎。它们用于交易数据集中，以识别频繁的项目集或物品集合，以确定在消费一种产品的情况下消费另一种产品的可能性。例如，如果我在 Spotify 上播放 Black Sbbath 的电台，从他们的歌曲“Orchid”开始，这个频道上的其他歌曲可能是 Led Zeppelin 的歌曲，例如“Over the Hills and Far Away”。这是根据我和其他人之前的收听习惯得出的结论。Apriori 算法使用哈希树来计数项目集，以广度优先的方式浏览数据集。

减小维度

虽然更多数据通常会产生更准确的结果，但它也会影响机器学习算法的性能（例如过拟合），还可能使数据集难以可视化。当给定的数据集中的特征或维度数量过高时，可以使用降维技术。它将数据输入的数量减少到可管理的大小，同时尽可能地保持数据集的完整性。它通常用于数据预处理阶段，有几种不同的降维方法可供选择，例如：

主成分分析

主成分分析 (PCA) 是一种降维算法，用于通过提取特征来减少冗余并压缩数据集。该方法使用线性变换来创建新的数据表示，从而产生一组“主成分”。第一主成分是最大化数据集方差的方向。虽然第二主成分也寻找数据中的最大方差，但它与第一个主成分完全不相关，产生与第一个成分垂直或正交的方向。此过程根据维度数重复，下一个主成分是与具有最大方差的先前成分正交的方向。

奇异值分解

奇异值分解 (SVD) 是另一种降维方法，它将矩阵 A 分解为三个低秩矩阵。SVD 可以用公式 A = USVT 表示，其中 U 和 V 是正交矩阵。S 是对角矩阵，S 值被视为矩阵 A 的奇异值。与 PCA 类似，它通常用于减少噪声和压缩数据，例如图像文件。

自编码器

自编码器充分利用神经网络压缩数据，然后重新创建原始数据输入的新表示形式。从下面的图片可以看到，在输出层内进行重建之前，隐藏层尤其成为压缩输入层的瓶颈。从输入层到隐藏层的阶段被称为“编码”，而从隐藏层到输出层的阶段被称为“解码”。

无监督学习的应用

机器学习技术已成为提升产品用户体验和测试系统以保证质量的常用方法。与人工观察相比，无监督学习提供了一种探索性的数据查看路径，使企业能够更快地识别大量数据中的模式。无监督学习最常见的实际应用包括：

新闻领域：Google News 使用无监督学习技术，对来自不同在线新闻机构的关于同一事件的文章进行分类。例如，总统选举的结果可以归类在“美国”新闻的标签下。
计算机视觉：无监督学习算法用于视觉感知任务，例如物体识别。
医学成像：无监督机器学习为医学成像设备提供了基本功能，例如图像检测、分类和分割，以便在放射学和病理学中快速、准确地诊断患者。
异常检测：无监督学习模型可以梳理大量数据，发现数据集中的非典型数据点。这些异常数据可以提高人们对设备故障、人为错误或网络安全漏洞的认识。
客户角色：定义客户角色可以更轻松地了解共同特征和企业客户的购买习惯。无监督学习使企业能够建立更好的买家角色档案，使组织能够更恰当地调整其产品信息。
推荐引擎：使用过去的购买行为数据，无监督学习可以帮助发现可用于制定更有效的交叉销售战略的数据趋势。在线零售商可在结账过程中使用此引擎向客户进行相关的附件推荐。

Mixture of Experts | 12 月 12 日，第 85 集

解码 AI：每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见，带来最新的 AI 资讯与深度解析。

观看 Mixture of Experts 所有剧集

无监督学习、监督学习与半监督学习

无监督学习和监督学习经常一起讨论。与无监督学习算法不同，监督学习算法使用标记数据。根据这些数据，它要么预测未来的结果，要么根据它试图解决的回归或分类问题，将数据分配到特定类别。

虽然监督学习算法往往比无监督学习模型更准确，但它们需要预先人工干预以适当地标记数据。但是，这些带标签的数据集允许监督学习算法避免计算复杂性，因为它们不需要大型训练集即可产生预期的结果。常见的回归和分类技术包括线性和逻辑回归、朴素贝叶斯、KNN 算法和随机森林。

当给定输入数据中只有一部分被标记时，就会执行半监督学习。无监督和半监督学习可能是更具吸引力的替代方案，因为依靠领域专业知识为监督学习适当标记数据可能既耗时又昂贵。

要深入了解这些方法之间的差异，请查看“监督学习与无监督学习：有什么区别？”。

无监督学习的挑战

虽然无监督学习具有很多优点，但当它允许机器学习模型在没有任何人工干预的情况下执行时，可能会出现一些挑战。其中一些挑战可能包括：

大量训练数据带来的计算复杂性
更长的训练时间
结果不准确的风险更高
通过人工干预来验证输出变量
数据聚类依据缺乏透明度

解锁生成式 AI + 机器学习的强大功能

了解如何自信地将生成式 AI 和机器学习融入您的业务中。

什么是无监督学习？