交叉验证
只有在目标是预测目标时才激活此窗格。该窗格上的选项控制计算最近相邻元素时是否使用交叉验证。
交叉验证将样本划分为许多子样本,或折叠。然后,生成最近邻元素模型,并依次排除每个子样本中的数据。第一个模型基于第一个样本折的观测值之外的所有观测值,第二个模型基于第二个样本折的观测值之外的所有观测值,依此类推。对于每个模型,估计其错误的方法是将模型应用于生成它时所排除的子样本。“最佳”最近邻元素数为在折中产生最小误差的数量。
交叉验证折叠。V 折交叉验证用于确定“最佳”邻元素数目。因性能原因,它无法与特征选择结合使用。
- 随机指定观测值的折叠次数。指定应当用于交叉验证的折数。该过程将观测值随机分配到折,从 1 编号到 V(折数)。
- 设置随机种子。根据随机百分比估算模型的准确性时,您可以通过此选项在另一会话中复制相同结果。通过指定随机数生成器所使用的起始值,可以确保在每次执行节点时都会分配相同的记录。输入所需的种子值。如果未选中该选项,则每次执行节点时会生成不同的抽样。
- 使用字段指定观测值。指定一个将活动数据集中的每个观测值分配到折中的数值字段。此字段必须是数字,并且接受从 1 到 V 的值。如果此范围中的任何值缺失,且位于任何分隔字段上(如果分隔模型有效),那么这将导致误差。