建模节点概述

IBM® SPSS® Modeler 提供了各种借助机器学习、人工智能和统计学的建模方法。通过建模选项板中的方法,您可以根据数据生成新的信息以及开发预测模型。每种方法各有所长,同时适用于解决特定类型的问题。

IBM SPSS Modeler 应用程序指南 为上述多种方法提供了示例以及建模过程的一般介绍。本指南作为联机教程提供。更多信息

建模方法分为以下类别:

  • 受监督
  • 关联
  • 细分

受监督模型

受监督模型使用一个或多个输入字段的值来预测一个或多个输出(或目标)字段的值。这些技术的一些示例包括:决策树(C&R 树、QUEST、CHAID 和 C5.0 算法)、回归(线性、logistic、广义线性和 Cox 回归算法)、神经网络、支持向量机和贝叶斯网络。

“受监督”模型可帮助组织预测已知的结果,例如顾客是否购买、流失或某交易是否符合某种已知的犯罪模式。其建模方法包括机器学习、规则归纳、子组标识、统计方法和多模型生成。

受监督节点

“自动分类器”节点用于创建和对比二元结果(是或否,流失或不流失等)的若干不同模型,使用户可以选择给定分析的最佳处理方法。由于支持 多种建模算法,因此可以对用户希望使用的方法、每种方法的特定选项以及对比结果的标准进行选择。节点根据指定的选项生成一组模型并根据用户指定的标准排列最佳候选项的顺序。
自动数字节点使用多种不同方法估计和对比模型的连续数字范围结果。此节点和自动分类器节点的工作方式相同,因此可以选择要使用和要在单个建模传递中使用多个选项组合进行测试的算法。受支持的算法包括神经网络、C&R 树、CHAID、线性回归、广义线性回归以及支持向量机 (SVM)。可基于相关度、相对错误或已用变量数对模型进行对比。
分类和回归 (C&R) 树节点生成可用于预测或分类未来观测值的决策树。该方法通过在每个步骤最大限度降低不纯洁度,使用递归分区来将训练记录分割为组。如果树中某个节点中 100% 的观测值都属于目标字段的一个特定类别,那么该节点将被认定为“纯洁”。目标和输入字段可以是数字范围或分类(名义、有序或标志);所有分割均为二元分割(即仅分割为两个子组)。
QUEST 节点可提供用于构建决策树的二元分类法,此方法的设计目的是减少大型 C&R 树分析所需的处理时间,同时也减少在分类树方法中发现的趋势以便支持允许有多个分割的输入。输入字段可以是数字范围(连续),但目标字段必须是分类。所有分割都是二元的。
CHAID 使用卡方统计来生成决策树,以确定最佳的分割。CHAID 与 C&R 树和 QUEST 节点不同,它可以生成非二元树,这意味着有些分割将有多于两个的分支。目标和输入字段可以是数字范围(连续)或分类。Exhaustive CHAID 是 CHAID 的修正版,它对所有分割进行更彻底的检查,但计算时间比较长。
C5.0 节点构建决策树或规则 集。该模型的工作原理是根据在每个级别提供最大信息收获的字段分割样本。目标字段必须为分类字段。允许进行多次多于两个子组的分割。
决策列表节点可标识子组或段,显示与总体相关的给定二元结果的似然度的高低。例如,您或许在寻找那些最不可能流失的客户或最有可能对某个商业活动作出积极响应的客户。通过定制段和并排预览备选模型来比较结果,您可以将自己的业务知识体现在模型中。决策列表模型由一组规则构成,其中每个规则具备一个条件和一个结果。规则依顺序应用,相匹配的第一个规则将决定结果。
线性回归模型根据目标与一个或多个预测变量之间的线性关系预测连续目标。
“PCA/因子”节点提供用于降低数据复杂程度的强大数据降维技术。主成份分析(PCA)可找出输入字段的线性组合,该组合最好地捕获了整个字段集合中的方差,且组合中的各个成分相互正交(相互垂直)。因子分析则尝试识别底层因素,这些因素说明了观测的字段集合内的相关性模式。对于这两种方法,其共同的目标是找到可对原始字段集合中的信息进行有效总结的少量派生字段。
“特征选择”节点根据一组条件(例如缺失值百分比)筛选要移除的输入字段,然后,相对于指定目标对余下的输入的重要性进行排秩。例如,假如某个给定数据集有上千个潜在输入,那么哪些输入最有可能用于对患者结果进行建模呢?
判别分析所做的假设比 logistic 回归的假设更严格,但在符合这些假设时,判别分析可以作为 logistic 回归分析的有用替代项或补充。
Logistic 回归是一种统计方法,它可根据输入字段的值对记录进行分类。它类似于线性回归,但采用的是类别目标字段而非数字范围。
广义线性模型对广义线性模型进行了扩展,这样因变量通过指定的关联函数与因子和协变量线性相关。而且,该模型还允许因变量为非正态分布。它包括统计模型大部分的功能,其中包括线性回归、logistic 回归、用于计数数据的对数线性模型以及区间删失生存模型。
广义线性混合模型 (GLMM) 扩展了线性模型,使得目标可以有非正态分布,通过指定的连接函数与因子和协变量线性相关,并且观测值可能相关。广义线性混合模型涵盖了各种模型,从简单线性回归模型到非正态纵向模型数据的复杂多级模型。
使用 Cox 回归节点,您可以在已有的检查记录中建立时间事件的生存模型。该模型会生成一个生存函数,该函数可预测在给定时间 (t) 内对于所给定的输入变量值相关事件的发生概率。
使用支持向量机 (SVM) 节点,可以将数据分为两组,而无需过度拟合。SVM 可以与宽数据集配合使用,例如那些含有大量输入字段的数据集。
通过贝叶斯网络节点,你可以利用对真实世界认知的判断力并结合所观察和记录的证据来构建概率模型。该节点重点应用了树扩展简单贝叶斯 (TAN) 和马尔可夫覆盖网络,这些算法主要用于分类问题。
自学响应模型(SLRM)节点可用于构建一个包含单个新观测值或少量新观测值的模型,通过此模型,无需使用全部数据对模型进行重新训练即可对模型进行重新评估。
时间序列节点估计时间序列数据的指数平滑模型、单变量自回归整合移动平均值 (ARIMA) 模型和多变量 ARIMA(即变换函数)模型,并生成未来性能的预测数据。此“时间序列”节点类似于 SPSS Modeler V18 中不推荐使用的先前“时间序列”节点。但是,此较新“时间序列”节点旨在利用 IBM SPSS Analytic Server 的能力来处理大数据,并在 SPSS Modeler V17 中添加的输出查看器中显示生成的模型。
The k-最近相邻元素 (KNN) 节点将新的观测值关联到预测变量空间中与其最邻近的 k 个对象的类别或值(其中 k 为整数)。类似观测值相互靠近,而不同观测值相互远离。
空间-时间预测 (STP) 节点使用包含位置数据、预测输入字段(预测变量)、时间字段和目标字段的数据。每个位置在数据中都有许多行,这些行表示每个预测变量在每个测量时间的值。分析数据后,可以使用该数据来预测分析中使用的形状数据内任意位置处的目标值。

关联模型

关联模型查找您数据中的模式,其中一个或多个实体(如事件、购买或属性)与一个或多个其他实体相关联。这些模型构建定义这些关系的规则集。数据中的字段可以作为输入和目标。您可以手动查找这些关联,但关联规则算法可以更快速地完成,并能探索更多复杂的模式。Apriori 和 Carma 模型是使用此类算法的示例。另一种类型的关联模型是序列检测模型,后者可以在按时间建立结构的数据中查找顺序模式。

关联模型在预测多个结果时非常有用,例如,购买了产品 X 的顾客也购买了产品 Y 和 Z。关联模型可以将特定结论(如购买某些产品的决策)与一组条件关联起来。关联规则算法相对于更标准的决策树算法(C5.0 和 C&RT)的优势在于,它可以找到任何属性间存在的关联。决策树算法只使用单一结论来构建规则,而关联算法则试图找到更多规则,且每个规则具有不同的结论。

关联节点

“先验”节点从数据抽取一组规则,即抽取信息内容最多的规则。Apriori 节点提供五种选择规则的方法并使用复杂的索引模式来高效地处理大数据集。对于较大的问题,Apriori 训练的速度通常较快;它对可保留的规则数量没有任何限制,而且可处理最多带有 32 个前提条件的规则。“先验”要求输入和输出字段均为分类型字段,但因为它专为处理此类型数据而进行优化,因而处理速度快得多。
CARMA 模型在不要求用户指定输入或目标字段的情况下从数据抽取一组规则。与 Apriori 不同, CARMA 节点提供构建规则设置支持(前项和后项支持),而不仅仅是前项支持。这就意味着生成的规则可以用于更多应用程序,例如用于查找产品或服务(前项)的列表,这些产品或服务的后项为想在节日期间促销的商品。
序列节点可发现连续数据或与时间有关的数据中的关联规则。序列是一系列可能会以可预测顺序发生的项目集合。例如,一个购买了剃刀和须后水的顾客可能在下次购物时购买剃须膏。序列节点基于 CARMA 关联规则算法,该算法使用一个有效的两次传递方法查找序列。
“关联规则”节点与 Apriori 节点类似;但是,与 Apriori 不同,“关联规则”节点能够处理列表数据。另外,“关联规则”节点可以与 IBM SPSS Analytic Server 配合使用,以处理大型数据以及利用更快的并行处理功能。

细分模型

细分模型将数据划分为具有类似输入字段模式的记录段或聚类。细分模型只对输入字段感兴趣,没有输出或目标字段的概念。细分模型的示例为 Kohonen 网络、K-Means 聚类、二阶聚类和异常检测等。

在不知道特定结果的情况下(例如,需要识别新犯罪模式或在客户群中识别利益群体时),细分模型(也称为“聚类模型”)非常有用。聚类模型主要用来确定相似记录的组并根据它们所属的组来为记录添加标签。此方法的优点在于,不用提前了解这些组及其特征就可以使用,它使聚类模型(其中没有需要模型预测的预定义输出或目标字段)区别于其他的建模技术。对于这些模型来说,没有正确或错误的结果之分。模型的 值由模型捕获数据中感兴趣的分组并提供这些分组的有用说明信息的能力来确定。聚类模型通常用于创建在后续分析中用作输入的聚类或段(例如,将潜在用户分成几个相似的子组)。

细分节点

“自动聚类”节点估算和比较识别具有类似特征记录组的聚类模型。节点工作方式与其他自动建模节点相同,使您在一次建模运行中即可试验多个选项组合。模型可使用基本测量进行比较,以尝试过滤聚类模型的有效性以及对其进行排序,并提供一个基于特定字段的重要性的测量。
K-Means 节点将数据集聚类到不同分组(或聚类)。此方法将定义固定的聚类数量,将记录迭代分配给聚类,以及调整聚类中心,直到进一步优化无法再改进模型。k-means 节点作为一种非监督学习机制,它并不试图预测结果,而是揭示隐含在输入字段集中的模式。
Kohonen 节点会生成一种神经网络,此神经网络可用于将数据集聚类到各个差异组。此网络训练完成后,相似的记录应在输出映射中紧密地聚集,差异大的记录则应彼此远离。您可以通过查看模型块 中每个单元所捕获观测值的数量来找出规模较大的单元。这将让您对聚类的相应数量有所估计。
TwoStep 节点使用二阶聚类方法。第一步完成简单数据处理,以便将原始输入数据压缩为可管理的子聚类集合。第二步使用层级聚类方法将子聚类一步一步合并为更大的聚类。TwoStep 具有一个优点,就是能够为训练数据自动估计最佳聚类数。它可以高效处理混合的字段类型和大型的数据集。
Anomaly Detection 节点确定不符合“正常”数据格式的异常观测值(离群值)。即使离群值不匹配任何已知格式或用户不清楚自己的查找对象,也可以使用此节点来确定离群值。

数据库内数据挖掘模型

IBM SPSS Modeler 支持与多家数据库供应商的数据挖掘和建模工具集成,这包括包括 Oracle Data Miner 和 Microsoft Analysis Services。可以在 IBM SPSS Modeler 应用程序内的所有数据库中构建、评分和存储模型。有关完整的详细信息,请参阅《IBM SPSS Modeler 数据库内挖掘指南》

IBM SPSS Statistics 模型

如果您在计算机上拥有 IBM SPSS Statistics 安装和许可的一个副本,您可以从 IBM SPSS Modeler 访问和运行某些 IBM SPSS Statistics 例程以构建模型和给模型评分。