主页 topics 异常检测 什么是异常检测?
深入了解 Databand
通向屏幕的数据源的绘图

发布日期:2023 年 12 月 12 日
贡献者:Joel Barnard

什么是异常检测?

异常检测或异常值检测是指识别偏离标准或预期的观察值、事件或数据点,使其与数据集的其余部分不一致。

异常检测在统计领域历史悠久,分析师和科学家研究图表,寻找所有出现异常的元素。如今,异常检测利用人工智能 (AI)机器学习 (ML) 自动识别数据集正常行为中的意外变化。

异常数据可能指示底层发生的严重事件,例如基础设施故障、上游重大变化或安全威胁。异常现象还能突出架构优化或改进营销策略的机会。

异常检测在各个行业用途广泛。例如,在金融领域检测欺诈,在制造领域识别缺陷或设备故障,在网络安全领域检测异常网络活动,在医疗保健领域鉴别异常患者状况。

异常值检测可能具有挑战性,一方面异常情况通常很少见,另一方面正常行为的特征可能是复杂且动态的。从业务角度来看,发现实际异常而不是误报或数据噪音至关重要。

立即预订 IBM Databand 演示

了解主动数据可观察性如何帮助您更早地检测数据事件并更快地加以解决。

相关内容

订阅 IBM 时事通讯

为何异常检测十分重要?

数据异常在数据科学领域有重大影响,可能导致得出错误或误导性结论。例如,单个异常值可能显著扭曲数据集的平均值,从而使其无法准确地表示数据。数据异常还会影响机器学习算法的性能,因为它们会导致模型拟合噪音,而非数据中的基础模式。

识别和处理数据异常至关重要,原因如下:

提高数据质量:识别和处理数据异常能显著提高数据质量,利于准确可靠的数据分析。通过解决数据异常,分析师可以减少数据集中的噪音和错误,确保数据更能代表真正的基础模式

增强决策:数据驱动的决策依赖于准确可靠的数据分析。通过识别和处理数据异常,分析师可以确保数据发现更值得信赖,从而作出更明智的决策、取得更好的结果。

优化的机器学习性能:数据异常会显著影响机器学习算法的性能,因为它们可能导致模型拟合噪声,而不是去拟合数据中的底层模式。通过识别和处理数据异常,分析人员可以优化机器学习模型的性能,确保模型提供准确可靠的预测。

异常类型

异常检测系统可发现的数据异常有两种常见类型:无意异常和有意异常。

无意异常是指由于数据收集过程中的错误或噪声而偏离正常值的数据点。这类错误起源于数据输入期间的传感器故障或人为错误等问题,可能是系统性错误,也可能是随机错误。无意异常可能会扭曲数据集,从而难以获得准确的见解。

有意异常是因特定行为或事件而偏离常态的数据点。这些异常可能会突出独特的事件或趋势,从而为数据集提供有价值的洞察。

例如,假日季的销售额突然激增可能被视为有意异常,尽管这一激增偏离了典型的销售模式,但由现实世界的活动引发,因而可以预期。

就业务数据而言,时序数据异常主要有三种:点异常、上下文异常和集合异常。

点异常也称全局异常值,是存在于数据集其余部分之外的单个数据点。这些异常可能是有意的,无意的,或由错误、噪音或特殊事件造成的。

例如,某次银行账户提款比用户之前的任何提款金额都大得多便是点异常。

上下文异常是指在特定上下文中偏离正常值的数据点。单独审视时,此类异常不一定是异常值,但在特定上下文中审视时,就会变成异常值。

例如,考虑家庭能耗。如果中午无人在家时,能耗突然增加,这通常是上下文异常。与早晨或晚上(人们通常在家时)的能耗相比,这个数据点可能不是异常值,但在一天中的这个时间点出现,它就是异常值。

集合异常涉及一组数据实例,即使单个实例可能看起来很正常,但它们共同偏离常态。

此类异常的一个示例便是显示来自多个 IP 地址的流量同时突然激增的网络流量数据集。

异常检测方法

运用异常检测系统检测数据异常是数据分析的关键方面,可确保结果准确可靠。构建异常检测系统可以使用多种异常检测方法:

可视化是检测数据异常的有力工具,能让数据科学家快速识别数据中潜在的异常值和模式。分析师通过绘制数据图表,可以直观地检查数据集,发现所有异常数据点或趋势。

数据科学家可以使用统计检验,通过将观察到的数据与预期的分布或模式进行比较来检测数据异常。

例如,格鲁布斯检验将每个数据点与数据的平均值和标准偏差进行比较,从而识别数据集中的异常值。类似地,柯尔莫诺夫-斯米尔诺夫检验可确定数据集是否遵循特定分布,例如正态分布。

机器学习算法通过学习数据中的基本模式并识别与该模式的偏差,从而检测数据异常。以下是一些最常见的机器学习异常检测算法:

  • 决策树:孤立森林是一类决策树。它是一种集成学习方法:随机选择一个特征,然后在该特征的最大值和最小值之间随机选择一个分割值来孤立异常。
  • 一类支持向量机 (SVM):一类 SVM 是一种仅对“正常”实例进行训练的分类算法方法,旨在创建一条涵盖正常数据的边界。超出这一边界的实例将视为异常。

  • K 最邻近 (k-NN)k-NN 是一种根据数据点的 k 个最邻近值所属的大多数类来对数据点进行分类的简单算法。同类邻近值明显较少的实例可视为异常。

  • 朴素贝叶斯:这些方法根据影响因素的存在性定义事件发生的概率,并检测与同一根本原因的关系。
  • 自动编码器:一种神经网络,可使用带时间戳的数据来预测数据模式并识别与历史数据不一致的异常值。

  • 局部异常因子 (LOF):LOF 是一种基于密度的算法,用于测量某数据点相对于其邻近值的局部密度偏差。与邻近点相比,密度明显较低的点视为异常值。

  • k-means 聚类: k-means 聚类技术分析未标记数据点的平均距离,然后协助将其聚类到特定组中。
异常检测技术

异常检测算法可以使用各种机器学习训练技术来学习识别模式并检测异常数据。数据团队训练数据集中的标记数据量(如果有)决定了他们将采用的主要异常检测技术——无监督、监督还是半监督。

利用无监督异常检测技术,数据工程师通过向模型提供未标记的数据集来训练模型,而模型会使用这些数据集自行发现模式或异常。尽管此类技术由于其应用较广泛,相关性较强,而成为迄今为止最常用的技术,但它们需要大量的数据集和较高的计算能力。无监督机器学习最常见于依赖人工神经网络的深度学习场景中。

监督异常检测技术使用一种通过包含正常实例和异常实例的标记数据集进行训练的算法。由于标记的训练数据普遍不可用以及类的固有不均衡特性,这类异常检测技术很少使用。

半监督技术最大程度发挥了无监督异常检测和监督异常检测的长处。它会向算法提供部分标记数据,对算法进行部分训练。然后,数据工程师使用部分训练算法来自主标记更大的数据集,这称为“伪标记”。假设已证实这些数据可靠,这些新标记的数据点将与原始数据集相结合,来对算法进行微调。

正确组合监督和无监督机器学习对于机器学习自动化至关重要。理想情况下,绝大多数数据分类将采用无监督方式完成,无需人工干预。不过,数据工程师仍然应该能够为算法提供训练数据,帮助创建“正常”基线。半监督方法支持扩展异常检测,并灵活地针对特定异常制定手动规则。

异常检测用例

异常检测模型广泛应用于银行、保险和股票交易行业,用以实时识别欺诈活动,如未经授权的交易、洗钱、信用卡欺诈、虚假纳税申报表申索和异常交易模式。

在网络安全领域,入侵检测系统 (IDS) 会利用异常检测来帮助识别网络流量中的异常或可疑活动,指示出现潜在的安全威胁或攻击,如恶意软件感染或未经授权的访问。

医疗保健行业使用异常检测鉴别不寻常患者状况或医疗数据中的异常,从而帮助检测疾病、监测患者健康状况并更有效地治疗患者。

在制造行业,异常检测算法与计算机视觉相结合,用于通过分析高分辨率摄像机镜头、传感器数据和生产指标来识别产品或包装中的缺陷。

异常检测能监视 IT 系统的性能,通过识别服务器日志中的异常模式并据此和以往经验重建故障来预测潜在的问题或故障,从而保持运营平稳。

异常检测有助于预测航空、能源和运输等行业中的设备故障或维护需求。物联网驱动的传感器用于从工业设备收集数据、识别偏差并预测未来的故障。

它用于监控能源消耗模式并识别使用过程中的异常情况,从而提高能源管理效率,及早检测出设备故障。

电商行业利用异常检测识别欺诈活动,例如虚假评论、账户接管或异常购买行为。

企业还使用异常检测模型来识别客户行为中的异常模式,协助检测欺诈、预测客户流失并改进营销策略。

相关产品
IBM Databand

IBM® Databand® 是用于数据管道和仓库的可观察性软件,该软件会自动收集元数据来构建历史基线、检测异常并分类警报,以修复数据质量问题。

深入了解 Databand

IBM DataStage

IBM® DataStage® 支持 ETL 和 ELT 模式,在本地和云中提供灵活且近乎实时的数据集成。

探索 DataStage

IBM Knowledge Catalog

IBM® Knowledge Catalog 是 AI 时代的智能数据目录,让您可以访问、整理、分类和共享数据、知识资产及其关系,而无论这些数据存储于何处。

探索 Knowledge Catalog
资源 使用 Databand 的异常检测来满足数据交付截止日期

通过本文了解 Databand 的异常检测如何助力数据团队加速识别数据管道问题,从而更好地满足他们设置的数据 SLA。

监督学习与无监督学习

深入了解监督和无监督这两种数据科学方法的相关基础知识。了解哪种方法适用于您当前的情况。

如何确保数据质量、价值和可靠性

确保高质量数据是数据工程师和整个组织的责任。这篇文章描述了数据质量的重要性,如何审计和监控数据,以及如何获得关键利益相关者的支持。

采取下一步行动

立即使用 IBM Databand 实现主动数据可观测性,以便先于用户了解到何时出现数据运行状况问题。

深入了解 Databand