“决策树”节点 - 基本
指定有关如何构建决策树的基本选项。
树生长算法(仅限 CHAID 和树-AS)选择您要使用的 CHAID 算法类型。 Exhaustive CHAID 是 CHAID 的修正版,它可对每个预测变量的所有可能分割进行更彻底的检查,但计算时间比较长。
最大树深度指定根节点以下的最大级数(对样本进行递归分割的次数)。 缺省值为 5;选择定制,并输入值以指定其他级数。
修剪(仅限 C&RT 和 QUEST)
对树进行修剪以避免过度拟合修剪包括删除对于树的准确性没有显著影响的底层分割。 修剪有助于简化树,使树更容易被理解,在某些情况下还可提高广义性。如果需要未修剪的完整树,请取消选中此选项。
- 设置风险最大差分(在标准误差范围内)通过此选项,您可以指定更自由的修剪规则。 标准误差规则使算法可以选择最简单的树,该树的风险估计接近于(但也可能大于)风险最小的子树的风险估计。该值表示已修剪树和风险最小的树之间所允许的风险估计差异大小。例如,如果指定 2 ,那么将选择其风险估计(2 × 标准误差)大于完整树的风险估计的树。
最大代用项。 替代项是用于处理缺失值的方法。对于树中的每个分割,算法都会对与选定的分割字段最相似的输入字段进行识别。这些被识别的字段就是该分割的 代用项 。 当必须对某个记录进行分类,但此记录中的分割字段中具有缺失值时,可以使用代用项字段的值填补此分割。增加此设置将可以更加灵活地处理缺失值,但也会导致内存使用量和训练时间增加。