经过初始数据研究之后,您可能需要在准备分析的过程中选择、清除或构造数据。“字段操作”选项板包含许多适用于这种变换和准备的节点。
例如,使用“派生”节点,可以创建当前数据中并未呈现的属性。或者,使用“分级”节点可以自动针对目标分析进行字段值的重新编码。您可能会发现自己使用“类型”节点的频率很高,该节点可用于为数据集中每个字段分配测量级别、值和建模角色。其操作对于处理缺失值和下游建模十分实用。
“字段操作”选项板包含下列节点:
|
|
“自动数据准备 (ADP)”节点可分析您的数据并标识修正,筛选出存在问题或可能无用的字段,并在适当的情况下派生新的属性,通过智能筛选和抽样技术改进性能。您可以采用完全自动化方式使用此节点,从而允许此节点选择并应用修订,另外也可以在应用修订前预览更改并根据需要接受、拒绝或进行修改。 |
|
|
“类型”节点指定字段元数据和属性。例如,您可以指定每个字段的测量级别(连续、名义、有序或标志)、设置用于处理缺失值和系统 Null 值的选项、设置用于建模的字段的角色、指定字段标签和值标签以及为字段指定值。 |
|
|
“过滤”节点用于过滤(废弃)字段、对字段进行重命名以及将字段从一个源节点映射到另一个节点。 |
|
|
“派生”节点修改数据值或者根据一个或多个现有字段创建新字段。它可以创建类型为公式、标志、名义、状态、计数和条件的字段。
|
|
|
“整体”节点对两个或两个以上模型块进行组合,这样所获得的预测比通过任意一个模型获得的预测更为准确。
|
|
|
“填充器”节点用于替换字段值并更改存储。您可以选择基于 CLEM 条件(例如 @BLANK(@FIELD))的替换值。另外,也可以选择将所有空白值或
Null 值替换为特定值。“填充器”节点经常与“类型”节点配合使用,以替换缺失值。
|
|
|
“匿名化”节点用于转换字段名和字段值在下游的表示方式,从而掩饰原始数据。如果要允许其他用户构建含有敏感数据(例如客户名称或其他详细信息)的模型,那么这种节点十分有用。 |
|
|
“重新分类”节点将一组分类值转换为另一组值。对于折叠类别或者进行数据重新分组以执行分析而言,重新分类非常有用。 |
|
|
“分箱”节点根据一个或多个现有连续(数字范围)字段的值自动创建新的名义(集合)字段。例如,您可以将连续收入字段转换为一个包含各组收入(作为与均值之间的偏差)的新分类字段。为新字段创建分箱后,即可根据分割点生成“派生”节点。 |
|
|
通过近因、频率和货币 (RFM) 分析节点,您可以检查客户最近一次购买您产品或服务的时间(近因)、客户购买的频率 (频率)以及客户支付的所有交易金额(货币),确定可能成为最佳客户的数量。
|
|
|
分区节点可生成分区字段,该字段可将数据分割为单独的子集以便在模型构建的训练、测试和验证阶段使用。 |
|
|
“设为标志”节点根据针对一个或多个名义字段定义的分类值派生多个标志字段。 |
|
|
“重构”节点将名义字段或标志字段转换为一组字段,这组字段可以使用另一字段的值进行填充。例如,给定一个名为 支付类型的字段,其值为 贷方、现金和 借方,那么将创建三个新字段(贷方、现金、借方),每个字段可能包含实际支付的值。
|
|
|
“转置”节点交换行和列中的数据,以便记录变成字段,字段变成记录。
|
|
|
使用“时间间隔”节点可以指定时间间隔并派生用于估算或预测的新时间字段。支持全部范围的时间间隔,从秒到年。
|
|
|
“历史记录”节点创建新字段,这些字段包含先前记录中的字段的数据。“历史记录”节点最常用于顺序数据,例如时间序列数据。在使用“历史记录”节点前,可以使用“排序”节点对数据进行排序。
|
|
|
“字段重新排序器”节点定义用于显示下游字段的自然顺序。此顺序将影响字段在各种位置(例如表、列表和字段选择器)的显示方式。处理宽数据集时,此操作有助于使所需字段更为直观。
|
|
|
在 SPSS® Modeler 中,表达式构建器空间函数、“空间-时间预测”(STP) 节点和“地图可视化”节点之类的项使用投影坐标系。使用“重新投影”节点可以更改所导入的任何使用了地理坐标系的数据的坐标系。
|
其中某些节点可以通过“数据审核”节点所创建的审核报告直接生成。有关更多信息,请参阅生成其他用于数据准备的节点主题。