什么是异常检测？

异常检测或异常值检测是指识别偏离常规、标准或预期的观察值、事件或数据点，它们与数据集的其余部分不一致。

异常检测在统计领域历史悠久，分析师和科学家研究图表，寻找所有出现异常的元素。如今，异常检测利用人工智能 (AI) 和机器学习 (ML) 自动识别数据集正常行为中的意外变化。

异常数据可能指示底层发生的严重事件，例如基础设施故障、上游重大变化或安全威胁。异常现象还能突出架构优化或改进营销策略的机会。

异常检测在各个行业用途广泛。例如，在金融领域检测欺诈，在制造领域识别缺陷或设备故障，在网络安全领域检测异常网络活动，在医疗保健领域鉴别异常患者状况。

异常值检测可能具有挑战性，一方面异常情况通常很少见，另一方面正常行为的特征可能是复杂且动态的。从业务角度来看，发现实际异常而不是误报或数据噪音至关重要。

行业时事通讯

专家为您带来最新的 AI 趋势

获取有关最重要且最有趣的 AI 新闻的精选洞察分析。订阅我们的每周 Think 时事通讯。请参阅 IBM 隐私声明。

为什么异常检测很重要？

数据异常在数据科学领域有重大影响，可能导致得出错误或误导性结论。例如，单个异常值可能显著扭曲数据集的平均值，从而使其无法准确地表示数据。数据异常还会影响机器学习算法的性能，因为它们会导致模型拟合噪音，而非数据中的基础模式。

识别和处理数据异常至关重要，原因如下：

提高数据质量：识别和处理数据异常能显著提高数据质量，对于准确可靠的数据分析至关重要。通过解决数据异常，分析师可以减少数据集中的噪音和错误，确保数据更能代表真正的基础模式。

增强决策：数据驱动的决策依赖于准确可靠的数据分析。通过识别和处理数据异常，分析师可以确保数据发现更值得信赖，从而作出更明智的决策、取得更好的结果。

优化的机器学习性能：数据异常会显著影响机器学习算法的性能，因为它们可能导致模型拟合噪声，而不是去拟合数据中的底层模式。通过识别和处理数据异常，分析人员可以优化机器学习模型的性能，确保模型提供准确可靠的预测。

Mixture of Experts | 12 月 12 日，第 85 集

解码 AI：每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见，带来最新的 AI 资讯与深度解析。

观看 Mixture of Experts 所有剧集

异常类型

异常检测系统可以发现两种常见异常类型：无意异常和有意异常。

无意异常是指由于数据收集过程中的错误或噪声而偏离正常值的数据点。这类错误起源于数据输入期间的传感器故障或人为错误等问题，可能是系统性错误，也可能是随机错误。无意异常可能会扭曲数据集，从而难以获得准确的见解。

有意异常是因特定行为或事件而偏离常态的数据点。这些异常可能会突出独特的事件或趋势，从而为数据集提供有价值的洞察。例如，假日季的销售额突然激增可能被视为有意异常，尽管这一激增偏离了典型的销售模式，但由现实世界的活动引发，因而可以预期。

时序数据异常

对于业务数据，时序数据异常主要有三种：点异常、上下文异常和集合异常。

点异常也称全局异常值，是指远离数据集中其他数据点的单个数据点。这些异常可能是有意的，无意的，或由错误、噪音或特殊事件造成的。例如，某次银行账户提款比用户之前的任何提款金额都大得多便是点异常。

上下文异常是指在特定上下文中偏离正常值的数据点。单独审视时，此类异常不一定是异常值，但在特定上下文中审视时，就会变成异常值。

例如，考虑家庭能耗。如果中午无人在家时，能耗突然增加，这通常是上下文异常。与早晨或晚上（人们通常在家时）的能耗相比，这个数据点可能不是异常值，但在一天中的这个时间点出现，它就是异常值。

集合异常涉及一组数据实例，即使单个实例可能看起来很正常，但它们共同偏离常态。此类异常的一个示例便是显示来自多个 IP 地址的流量同时突然激增的网络流量数据集。

异常检测方法

运用异常检测系统检测数据异常是数据分析的关键方面，可确保结果准确可靠。构建异常检测系统可以使用多种异常检测方法。

可视化

可视化是检测数据异常的有力工具，能让数据科学家快速识别数据中潜在的异常值和模式。分析师通过绘制数据图表，可以直观地检查数据集，发现所有异常数据点或趋势。

统计检验

数据科学家可以使用统计检验，通过将观察到的数据与预期的分布或模式进行比较来检测数据异常。

例如，格鲁布斯检验将每个数据点与数据的平均值和标准偏差进行比较，从而识别数据集中的异常值。类似地，柯尔莫诺夫-斯米尔诺夫检验可确定数据集是否遵循特定分布，例如正态分布。

机器学习算法

机器学习算法通过学习数据中的基本模式并识别与该模式的偏差，从而检测数据异常。以下是一些最常见的机器学习异常检测算法：

决策树：孤立森林是一类决策树。它是一种集成学习方法：随机选择一个特征，然后在该特征的最大值和最小值之间随机选择一个分割值来孤立异常。
一类支持向量机 (SVM)：一类 SVM 是一种仅对“正常”实例进行训练的分类算法方法，旨在创建一条涵盖正常数据的边界。超出这一边界的实例将视为异常。
k 最邻近 (k-NN)：k-NN 是一种根据数据点的 k 个最邻近值所属的大多数类来对数据点进行分类的简单算法。同类邻近值明显较少的实例可视为异常。
朴素贝叶斯：这些方法根据影响因素的存在性定义事件发生的概率，并检测与同一根本原因的关系。
自动编码器：一种神经网络，可使用带时间戳的数据来预测数据模式并识别与历史数据不一致的异常值。
局部异常因子 (LOF)：LOF 是一种基于密度的算法，用于测量某数据点相对于其邻近值的局部密度偏差。与邻近点相比，密度明显较低的点视为异常值。
k-means 聚类： k-means 聚类技术分析未标记数据点的平均距离，然后协助将其聚类到特定组中。

异常检测技术

异常检测算法可以使用各种机器学习训练技术来学习识别模式并检测异常数据。数据团队训练数据集中的标记数据量（如果有）决定了他们将采用的主要异常检测技术——无监督、监督还是半监督。

无监督异常检测

利用无监督异常检测技术，数据工程师通过向模型提供未标记的数据集来训练模型，而模型会使用这些数据集自行发现模式或异常。尽管此类技术由于其应用较广泛，相关性较强，而成为迄今为止最常用的技术，但它们需要大量的数据集和较高的计算能力。无监督机器学习最常见于依赖人工神经网络的深度学习场景中。

监督式异常检测

监督式异常检测技术使用一种通过包含正常实例和异常实例的标记数据集进行训练的算法。由于标记的训练数据普遍不可用以及类的固有不均衡特性，这类异常检测技术很少使用。

半监督异常检测

半监督技术最大程度发挥了无监督异常检测和监督式异常检测的长处。它会向算法提供部分标记数据，对算法进行部分训练。然后，数据工程师使用部分训练算法来自主标记更大的数据集，这称为“伪标记”。假设已证实这些数据可靠，这些新标记的数据点将与原始数据集相结合，来对算法进行微调。

正确组合监督和无监督机器学习对于机器学习自动化至关重要。理想情况下，绝大多数数据分类将采用无监督方式完成，无需人工干预。不过，数据工程师仍然应该能够为算法提供训练数据，帮助创建“正常”基线。半监督方法支持扩展异常检测，并灵活地针对特定异常制定手动规则。

异常检测用例

欺诈检测

异常检测模型广泛应用于银行、保险和股票交易行业，用以实时识别欺诈活动，如未经授权的交易、洗钱、信用卡欺诈、虚假纳税申报表申索和异常交易模式。

网络安全

入侵检测系统 (IDS) 和网络安全技术会利用异常检测来帮助识别异常或可疑的用户活动或网络流量模式，指示出现潜在的安全威胁或攻击，如恶意软件感染或未经授权的访问。

生产和质量控制

异常检测算法通常与计算机视觉相结合，用于通过分析高分辨率摄像机镜头、传感器数据和生产指标来识别产品或包装中的缺陷。

IT 系统管理

异常检测可用于监控 IT 系统的性能，通过识别服务器日志中的异常模式并据此和以往经验重建故障来预测潜在的问题或故障，从而保持运营平稳。

能源、交通和关键基础设施

异常检测可以通过识别物联网 (IoT) 传感器和运营技术 (OT) 设备数据中的异常，协助预测航空、能源和运输等行业的设备故障或维护需求。使用异常检测来监控能源消耗模式并识别使用过程中的异常情况，可以提高能源管理效率，及早检测出设备故障。

零售和电子商务

商家使用异常检测模型来识别客户行为中的异常模式，协助检测欺诈、预测客户流失并改进营销策略。电子商务领域使用异常检测来识别虚假评论、账户接管、异常购买行为以及其他欺诈或网络犯罪指标。

解锁生成式 AI + 机器学习的强大功能

了解如何自信地将生成式 AI 和机器学习融入您的业务中。

什么是异常检测？