最优分箱化
“最优分箱化”过程通过将每个变量的值分布到分箱中离散化一个或多个刻度变量(因此称为分箱化输入变量)。分箱的构成根据“监督”分箱化过程的分类向导变量得以最优化。然后,可以使用分箱而非原始数据值进行进一步的分析。
示例。减少变量具有的不同值的数量具有多种用途,包括:
- 其他过程的数据要求。离散化变量可作为分类变量用于需要分类变量的过程。例如,“交叉表格”过程要求所有变量均为分类变量。
- 数据隐私。报告分箱化值而不是实际值可帮助保护数据源的隐私。“最优分箱”过程可指导分箱的选择。
- 速度性能。有些过程在处理较少数量的不同值时更加有效。例如,使用离散化变量时“多项 Logistic 回归”的速度会提高。
- 揭示数据的完全分离或准完全分离。
最优分箱化与可视分箱化。“可视分箱化”对话框提供了多种不使用向导变量创建分箱的自动方法。这些“未受监督”的规则对于生成描述统计(例如频率表)十分有用,但如果最终目标是生成预测模型,则“最优分箱化”更好。
输出。该过程生成分箱的分割点以及每个分箱化输入变量的描述统计的表。此外,您可以将新变量保存到包含分箱化输入变量的分箱化值的活动数据集中,并将分箱化规则作为命令语法保存以便用于分箱化新数据。
最优分箱化数据注意事项
数据。此过程需要分箱化输入变量是数值型刻度变量。向导变量应是分类变量,可以是字符串或数值。
获取最优分箱化
此功能需要“数据准备”选项。
- 从菜单中选择:
- 选择一个或多个分箱化输入变量。
- 选择一个向导变量。
缺省情况下不会生成包含分箱化数据值的变量。使用保存选项卡可以保存这些变量。
此过程将粘贴OPTIMAL BINNING命令语法。