模型选择(线性模型)
模型选择方法。 选择一种模型选择方法(下面将详细介绍)或包括所有预测变量,后者简单地输入所有可用预测变量作为主效应模型项。缺省使用前向逐步。
向前逐步选择。 在开始时模型中没有任何效应,然后在每个步骤中添加和删除效应,直到根据逐步选择标准不能再添加或删除效应为止。
- 输入/移除条件。 此为用于决定是将某个效应添加到还是剔除出模型的统计。信息标准 (AICC) 基于模型中给定训练集合的似然估计,并可调整以惩罚过度复杂模型。F 统计基于有关模型错误改进情况的某个统计检验。调整 R 方基于训练集合的拟合度,并可调整以惩罚过度复杂模型。防止过度拟合准则 (ASE) 基于防止过度拟合集的拟合度(平均方差,或 ASE)。防止过度拟合集是不用于训练模型且大约为原始数据集 30% 的随机子样本。
如果选择了 F 统计以外的标准,那么在每步中将对应于选择标准的最大正增长的效应添加到模型。对应于标准中减少情况的任何模型效应将被移除。
如果选择了 F 统计作为标准,那么在每步中将具有低于指定阈值(纳入 p 值小于此值的效应)的最小 p 值的效应添加到模型。缺省值为 0.05。任何具有大于指定阈值移除 p 值大于此值的效应的 p 值的模型效应将被移除。缺省值为 .10。
- 在最终模型中定制最大效应数。 缺省情况下,所有可用效应都将被输入模型中。或者,如果逐步选择算法在具有指定最大效应数的某个步骤结束,那么此算法将以当前效应集合结束。
- 自定义最大步骤数。逐步选择算法在达到特定步骤数后停止。此值缺省为可用效应数的 3 倍。或者,指定一个正整数作为最大步骤数。
最佳子集选择。 这将检查“所有可能的”模型,或至少检查可能模型的较大子集(大于“前向逐步”方法),以选择满足相应标准的最佳子集。 信息标准 (AICC) 基于模型中给定训练集合的似然估计,并可调整以惩罚过度复杂模型。调整 R 方基于训练集合的拟合度,并可调整以惩罚过度复杂模型。防止过度拟合准则 (ASE) 基于防止过度拟合集的拟合度(平均方差,或 ASE)。防止过度拟合集是不用于训练模型且大约为原始数据集 30% 的随机子样本。
选择具有最大标准值的模型作为最佳模型。
注: 与向前逐步选择相比,最佳子集选择涉及更密集的计算。在与 Boosting、Bagging 或超大型数据集配合执行最佳子集时,花费的时间比使用向前逐步选择构建标准模型要长得多。