模型选择(线性模型)

模型选择方法。 选择一种模型选择方法(下面将详细介绍)或包括所有预测变量,后者简单地输入所有可用预测变量作为主效应模型项。缺省使用前向逐步

向前逐步选择。 在开始时模型中没有任何效应,然后在每个步骤中添加和删除效应,直到根据逐步选择标准不能再添加或删除效应为止。

最佳子集选择。 这将检查“所有可能的”模型,或至少检查可能模型的较大子集(大于“前向逐步”方法),以选择满足相应标准的最佳子集。 信息标准 (AICC) 基于模型中给定训练集合的似然估计,并可调整以惩罚过度复杂模型。调整 R 方基于训练集合的拟合度,并可调整以惩罚过度复杂模型。防止过度拟合准则 (ASE) 基于防止过度拟合集的拟合度(平均方差,或 ASE)。防止过度拟合集是不用于训练模型且大约为原始数据集 30% 的随机子样本。

选择具有最大标准值的模型作为最佳模型。

注: 与向前逐步选择相比,最佳子集选择涉及更密集的计算。在与 Boosting、Bagging 或超大型数据集配合执行最佳子集时,花费的时间比使用向前逐步选择构建标准模型要长得多。