欠拟合是数据科学中的一种情况,即数据模型无法准确捕捉输入和输出变量之间的关系,从而在训练集和未见过的数据上产生高错误率。
简而言之,过拟合与欠拟合相反,当模型训练过度或包含太多复杂性时就会发生过拟合,导致测试数据的错误率很高。模型过拟合比欠拟合更常见,并且欠拟合通常是为了通过称为“提前停止”的过程来避免过拟合。
如果训练不足或缺乏复杂性导致欠拟合,那么合乎逻辑的预防策略是增加训练持续时间或添加更多相关输入。但是,如果对模型训练过多或向模型添加过多特征,则可能会出现模型过拟合,从而导致低偏差但高方差(即偏差-方差权衡)。在这种情况下,统计模型与其训练数据过于紧密匹配,导致它无法很好地推广到新的数据点。值得注意的是,某些类型的模型比其他模型更容易出现过拟合现象,例如决策树或 KNN。
识别过拟合可能比欠拟合更困难,因为与欠拟合不同,训练数据在过拟合模型中的执行精度很高。为了评估算法的准确性,通常使用一种称为 k 折交叉验证的技术。
在 K 折交叉验证中,数据被拆分为 k 个大小相等的子集,这些子集也称为“折叠”。其中一个“k 折”将充当测试集,也称为留出集或验证集,其余“折叠”则用于训练模型。不断重复这个过程,直到每个“折叠”都用作留出“折叠”。每次评估后,都会保留一个分数,在完成所有迭代后,会求这些分数的平均值,用于评估整个模型的性能。
拟合模型时,理想的情况是在过拟合和欠拟合之间找到平衡。确定两者之间的“最佳平衡点”使机器学习模型能够准确地进行预测。
由于我们可以根据训练集检测欠拟合,因此可以更好地协助在一开始就建立输入和输出变量之间的主导关系。通过保持足够的模型复杂性,我们可以避免欠拟合并做出更准确的预测。以下是一些可用于减少欠拟合的技术:
正则化通常用于通过对具有较大系数的输入参数施加惩罚来减少模型的方差。有许多不同的方法,例如 L1 正则化、Lasso 正则化、dropout 等,有助于减少模型中的噪声和异常值。然而,如果数据功能变得过于统一,模型则无法识别主导趋势,从而导致欠拟合。通过减少正则化的数量,模型会引入更多的复杂性和变化,从而成功训练模型。
如前所述,过早停止训练也会导致模型欠拟合。因此,可以通过延长训练持续时间来避免。然而,重要的是要认识到过度训练,及其引发的过拟合。在这两种情况之间找到平衡点将是关键所在。
使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。
借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。
通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。