决策树模型
决策树模型可用于开发分类系统,此分类系统可以基于一组决策规则来预测或分类未来的观测值。 如果已将数据分成您感兴趣的类别(例如,高风险和低风险贷款、订户和非订户、投票人和非投票人或细菌类型),那么您可以使用自己的数据来构建用于对具有最高准确性的旧观测值或新观测值进行分类的规则。例如,可以基于年龄和其他因素构建对信用风险或购买意向进行分类的树。
此方法(有时称为 规则归纳 )有多个优点。首先,浏览树的同时可以明显地看出模型背后的推论过程。这与其他“黑箱”建模技术不同的地方,在其他“黑箱”建模技术中,您很难了解其内部逻辑。
其次,此过程只会将真正影响决策的属性自动包含在其规则中。不会提高树的准确性的属性将被忽略。此方法可获得非常有用的数据信息,并且可用于在培训其他学习方法(如神经网络)之前将数据缩减到相关字段。
决策树模块可转换成 if-then 规则的集合( 规则集 ),在多数情况下此规则集以更为复杂的形式显示信息。决策树表示法可以让您知道数据属性是如何将总体 分割 或 分区 成与问题相关的子集。树-AS 节点输出不同于其他决策树节点,因为它在块中直接包含规则列表,无需创建规则集。 规则集表示法可以让您知道特定项目组与具体结论是如何关联的。例如,以下规则就提供了关于值得购买的一组汽车的概要:
IF tested = 'yes'
AND mileage = 'low'
THEN -> 'BUY'.
树构建算法
有多种算法可用于执行分类和分段分析。这些算法执行的操作基本相同,检查数据集中的所有字段,通过将数据分割为多个子组来找到能够实现最佳分类或预测的字段。 此过程将重复应用以将子组分割成越来越小的单位,直到树结束生长(由特定的停止条件所定义)。构建树的过程中所用的目标和输入字段可以是连续(数字范围)或分类(这取决于所采用的算法)。如果使用的是连续目标,那么生成回归树;如果使用的是分类目标,那么生成分类树。
|
|
分类和回归 (C&R) 树节点生成可用于预测或分类未来观测值的决策树。该方法通过在每个步骤最大限度降低不纯洁度,使用递归分区来将训练记录分割为组。如果树中某个节点中 100% 的观测值都属于目标字段的一个特定类别,那么该节点将被认定为“纯洁”。目标和输入字段可以是数字范围或分类(名义、有序或标志);所有分割均为二元分割(即仅分割为两个子组)。 |
|
|
CHAID 使用卡方统计来生成决策树,以确定最佳的分割。CHAID 与 C&R 树和 QUEST 节点不同,它可以生成非二元树,这意味着有些分割将有多于两个的分支。目标和输入字段可以是数字范围(连续)或分类。Exhaustive CHAID 是 CHAID 的修正版,它对所有分割进行更彻底的检查,但计算时间比较长。 |
|
|
QUEST 节点可提供用于构建决策树的二元分类法,此方法的设计目的是减少大型 C&R 树分析所需的处理时间,同时也减少在分类树方法中发现的趋势以便支持允许有多个分割的输入。输入字段可以是数字范围(连续),但目标字段必须是分类。所有分割都是二元的。 |
|
|
C5.0 节点构建决策树或规则 集。该模型的工作原理是根据在每个级别提供最大信息收获的字段分割样本。目标字段必须为分类字段。允许进行多次多于两个子组的分割。 |
|
|
树 AS 节点类似于现有的 CHAID 节点;但是,“树 AS”节点旨在处理大量数据以创建单个树,并在 SPSS® Modeler V17 中添加的输出查看器中显示生成的模型。此节点通过使用卡方统计 (CHAID) 来识别最优拆分,从而生成决策树。对 CHAID 的这一使用可生成非二元树,意味着某些拆分将具有两个以上的分支。目标和输入字段可以是数字范围(连续)或分类。Exhaustive CHAID 是 CHAID 的修正版,它对所有分割进行更彻底的检查,但计算时间比较长。 |
|
|
“随机树”节点类似于现有 C&RT 节点;但是,“随机树”节点旨在处理大数据以创建单个树,并在 SPSS Modeler V17 中添加的输出查看器中显示生成的模型。“随机树”节点将生成您可以对未来观测值进行预测或分类的决策树。通过在每个步骤最大限度降低不纯洁度,此方法使用递归分区将训练记录分割为多个段。如果树中某个节点的全部观测值都属于目标字段的一个特定类别,那么系统会将该节点视为纯洁。目标和输入字段可以是数字范围或分类(名义、有序或标志);所有分割均为二元分割(即仅分割为两个子组)。 |
基于树的分析的一般用法
以下为一些基于树的分析的多个用法:
细分:确定可能隶属于特定类别的人员。
分层:将观测值分配到多个类别中的一个,例如高风险组、中等风险组和低风险组。
预测:创建规则,并使用这些规则来预测未来事件。预测还可能意味着尝试将预测属性与连续变量值相关联。
数据降维和变量筛选:从大型变量集选择有用的预测变量子集,以用于构建正式的参数模型。
交互识别:确定仅与特定子组有关的关系,并在正式的参数模型中指定这些关系。
类别合并和带状化连续变量:以最小的信息损失,对组预测变量类别和连续变量进行重新编码。