机器学习与异常检测：示例、应用和用例

作者

Camilo Quiroz-Vázquez

IBM Staff Writer

随着企业收集规模更大的数据集以及关于业务活动的潜在洞察，检测异常数据或数据集中的异常值有助于发现低效环节、罕见事件、问题根本原因或运营改进机会，因此至关重要。但是，什么是异常？为什么检测异常很重要？

异常类型因企业和业务部门而异。简单而言，异常检测是指根据业务部门的职能和目标定义“正常”模式和指标，并识别反映非正常运营行为的数据点。例如，如果特定时期内网站或应用程序的流量高于平均水平，则可能表示存在网络安全威胁。这种情况下，您需要一个可以自动触发欺诈检测警报的系统。流量高于平均水平也可能仅仅表明某项营销措施正在起作用。异常情况本身并非坏事，但是要了解业务运营情况并保障业务正常运行，就必须要能够识别异常并通过数据了解与异常相关的背景信息。

从事数据科学工作的 IT 部门面临一项严峻挑战，即理解不断增多、不断变化的数据点。这篇博文将介绍如何利用由人工智能驱动的机器学习技术，通过三种不同的异常检测方法来检测异常行为：监督式异常检测、无监督异常检测以及半监督异常检测。

行业时事通讯

专家为您带来最新的 AI 趋势

获取有关最重要且最有趣的 AI 新闻的精选洞察分析。订阅我们的每周 Think 时事通讯。请参阅 IBM 隐私声明。

监督学习

监督式学习技术使用实际的输入和输出数据来检测异常。使用此类异常检测系统时，需要数据分析师将数据点标记为正常或异常以用作训练数据。使用标记数据进行训练后，机器学习模型将能够根据给定的示例检测异常值。这种机器学习模型可用于检测已知的异常值，但无法检测未知异常或预测未来可能会出现的问题。

对于监督式学习，常见的机器学习算法包括：

K 最近邻 (KNN) 算法：此算法是一种基于密度的分类器或回归建模工具，可用于进行异常检测。回归建模是一种统计工具，用于查找标记数据和变量数据之间的关联关系。它的工作原理是可以在各数据点附近找到相似的数据点。如果一个数据点出现在距离数据点密集区较远的位置，则被视为异常。
局部异常因子 (LOF)：局部异常因子类似于 KNN，也是一种基于密度的算法。这两者的主要区别在于，KNN 根据最邻近的数据点做出推测，而 LOF 则使用相距最远的数据点来得出结论。

Mixture of Experts | 12 月 12 日，第 85 集

解码 AI：每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见，带来最新的 AI 资讯与深度解析。

观看 Mixture of Experts 所有剧集

无监督学习

无监督学习技术不需要标记数据，可以处理更为复杂的数据集。无监督学习由深度学习、神经网络或自编码器提供支持，通过模仿生物神经元之间相互传递信号的方式达到学习经验的目的。这些工具功能强大，可从输入数据中发现规律，并就哪些数据应被视为正常做出假设。

在发现未知异常和减少手动筛选大型数据集的工作方面，这类技术大有帮助。然而，数据科学家应关注通过无监督学习技术收集的结果。这类技术会对输入数据做出假设，因此有可能错误地标记异常。

适用于非结构化数据的机器学习算法包括：

K 均值：此算法是一种数据可视化技术，通过数学公式处理数据点，旨在对相似的数据点进行聚类。“均值”或中位数是指聚类中与所有其他数据点都相关的中心点。通过对数据进行聚类分析，可发现规律，并对发现的异常数据进行推断。

孤立森林：这种类型的异常检测算法使用无监督数据。不同于监督式异常检测技术将标记正常数据点作为第一步，此技术尝试将隔离异常作为第一步。与“随机森林”相似，此技术也会创建“决策树”，以绘制数据点并随机选择要分析的区域。重复此过程，每个点都会根据与其他点的间隔距离获得介于 0 到 1 之间的异常分数值；如果值低于 0.5，通常会视为正常，如果超过 0.5，则很可能是异常的。孤立森林模型可以在 Python 的免费机器学习库 scikit-learn 中找到。

单类支持向量机 (SVM)：这种异常检测技术使用训练数据来划定正常范围。在设定范围内的聚类点被视为正常，而在设定范围外的聚类点被标记为异常。

半监督学习

半监督异常检测方法兼具前两种方法的优点。工程师可以应用无监督学习方法来自动学习特征，并处理非结构化数据。然而，通过将无监督学习与人类监督相结合，工程师将能够监控和控制模型学习的模式类型。这通常有助于提高模型的预测精准度。

线性回归：这种预测性机器学习工具同时使用因变量和自变量。以自变量为基础，通过一系列统计方程即可确定因变量的值。当仅知道部分信息时，这些方程使用标记数据和未标记数据来预测未来结果。

异常检测用例

在各个行业，异常检测都是保障正常运营的重要工具。至于是使用监督式、无监督还是半监督学习算法，将取决于所收集的数据类型和所要解决的运营挑战。下面列举了几种异常检测用例：

监督学习用例：

零售业物联网

通过使用上一年销售总额的标记数据，可以预测未来的销售目标。此外，还可以根据销售员工的过往表现和公司整体需求，为其设定绩效基准。由于所有销售数据都是已知的，因此可以通过分析模式来深入了解各产品销售情况、营销活动效果以及各季节销售情况。

天气预报

通过使用历史数据，监督学习算法可以协助预测天气模式。通过分析与气压、气温和风速有关的最新数据，气象学家可以根据不断变化的情况做出更准确的预报。

无监督学习用例：

入侵检测系统

此类系统以软件或硬件形式提供，用于监控网络流量是否存在安全违规或恶意活动的迹象。经过训练后，机器学习算法可以实时检测网络中的潜在攻击，从而保护用户信息和系统功能。

这些算法可以基于时间序列数据创建表示正常表现的可视化效果，时间序列数据是指在较长时间内以设定的时间间隔分析数据点。如果出现网络流量峰值或意外模式，可能会将其标记为潜在的安全漏洞并进行检查。

制造业物联网

确保机器正常运行对于成功制造产品、优化质量保证和维护供应链至关重要。无监督学习算法可从连接到设备的传感器获取未标记数据并预测可能发生的故障或问题，从而助力预测性维护。这样一来，企业能够在发生严重故障之前进行维修，从而减少机器停机时间。

半监督学习用例：

医疗

使用机器学习算法，医疗专业人员可以标记反映已知疾病或病症的图像。但是，这样的图像因人而异，因此无法标记出所有可能需要关注的症状。经过训练后，这些算法可以处理患者信息，对未标记的图像进行推断并标记出可能需要关注的症状。

欺诈检测

预测算法可以通过半监督学习方式，即需要同时使用标记数据和未标记数据，来检测欺诈行为。用户的信用卡活动属于标记数据，可用于检测异常支出模式。

然而，欺诈检测解决方案并不仅仅依赖于先前标记的欺诈交易；它们还可以根据用户行为做出假设，包括用户当前位置、登录设备以及其他需要无标记数据的因素。

异常检测与可观测性

用于进行异常检测的解决方案和工具可以帮助提高性能数据的可观测性。使用这些工具，可以快速识别异常情况，从而预防和修复问题。依托于人工智能和机器学习，IBM Instana Observability 可为所有团队成员提供性能数据的详细背景信息，从而帮助准确预测并主动解决错误。

IBM watsonx.ai提供强大的生成式 AI 工具，可用于分析大规模数据集以生成有意义的洞察分析。IBM watson.ai 可快速进行全面分析，并识别模式和趋势，据此可检测现有异常并针对未来的异常值做出预测。watson.ai 适用于各行各业，可以充分满足不同的业务需求。

解锁生成式 AI + 机器学习的强大功能

了解如何自信地将生成式 AI 和机器学习融入您的业务中。

机器学习在异常检测中的应用：查找异常值以优化业务运营

作者