异常检测节点

异常检测模型用于识别数据中的离群值或异常观测值。与存储有关异常观测值的规则的其他建模方法不同,异常检测模型存储有关正常行为的信息。因此即使在离群值不符合任何已知模式的情况下,异常检测模型也使识别离群值成为可能,在新模式可能不断涌现的应用(如缺陷检测)中,该模型可能尤其有用。异常检测是一种不受监督的方法,这就意味着它不需要包含已知缺陷观测值的训练数据集作为开始点。

识别离群值的传统方法通常是一次检查一个或两个变量,而异常检测可以检查大量字段以识别相似记录所属的聚类或对等组。然后,可将每条记录与其对等组中的其他记录进行比较,以识别出可能的异常值。观测值与正常中心值离得越远,它越有可能是异常观测值。例如,该算法可能会将记录聚合为三个不同的聚类,并对离任何一个聚类的中心值较远的那些记录进行标记。

每条记录都指定了一个异常指数,该指数是组偏差指数与该观测值所属聚类中平均值的比。此指数的值越大,观测值与平均值的偏差就越大。通常情况下,异常指数值小于 1 甚至小于 1.5 的观测值都不会被视为异常值,因为该偏差与平均值相同或者只是大一点。但是,指数值大于 2 的观测值有可能是异常观测值,因为该偏差至少是平均值的两倍。

异常检测是一种探索性方法,它是为对应该进行进一步分析的可能异常观测值或记录进行快速检测而设计的。这些观测值应视为 疑似 异常值,在进行进一步检查后,可以证明它们是或不是真正的异常值。您可能会发现某个记录完全有效,但无法选择从数据中将其筛选出来用于模型构建。另外,如果算法重复检测出虚假异常值,那么可能表示数据收集过程中存在错误或假象。

注意:异常检测并不考虑任何特定的目标(相关)字段,也不考虑这些字段是否与正在预测的模式相关,只是通过基于模型中所选字段集的聚类分析确定异常记录或观测值。由于上述原因,您可能想将异常检测与特征选择或字段筛选和排秩的其他方法结合使用。例如,您可以使用特征选择来确定与某个特定目标相关的最重要的字段,然后使用异常检测寻找针对这些字段而言最异常的记录。(另外一个方法是构建一个决策树模型,然后将所有错误分类的记录视为可能的异常进行检查。但是此方法很难用于进行大批量的复制和自动化。)

示例。对农业发展补贴进行审查以确定是否可能存在内部欺诈观测值时,异常检测可用于发现有悖于标准值的偏差,并突出显示值得进一步调查的异常记录。特别值得关注的是那些相对农场类型和规模而言似乎申请了过多(或过少)补助金的补贴申请。

需求。一个或多个输入字段。请注意,只有其角色使用源节点或“类型”节点设置为输入的字段才能用作输入。目标字段(角色设置为目标两者)将被忽略。

优势。通过标记符合已知规则集(而不是符合已知规则集)的观测值,异常检测模型可以确定异常观测值,即使这些观测值不符合先前已知的模式也是如此。与特征选择结合使用时,异常检测可用于筛选大量数据,以便更快地确定相对最需要关注的记录。