排除字段(自动数据准备)
质量较差的数据会影响到预测的准确性,因此需要为输入特征指定可接受的质量级别。所有为常量或缺失值达 100% 的字段自动被排除。
排除低质量的输入字段。取消选择该选项将在保持选择的同时禁用所有其他“排除字段”控件。
排除缺失值过多的字段。删除缺失值超过指定百分比的字段,而不会用于进一步分析。指定大于或等于 0 的值等同于取消选择该选项,同时指定小于或等于 100 的值将自动排除具有所有缺失值的字段。缺省值是 50。
排除唯一类别过多的名义字段。删除类别超过个数的字段,而不会用于进一步分析。指定一个正整数。缺省值为 100。这对于自动从建模中删除包含记录特有信息(如 ID、地址或名称)的字段非常有用。
排除单个类别中值过多的分类字段。删除在单个类别中包含超过指定百分比的记录的有序和名义字段,而不会用于进一步分析。指定大于或等于 0 的值等同于取消选择该选项,同时指定小于或等于 100 的值将自动排除常数字段。缺省值为 95。