什么是欠拟合?

专家为您带来最新的 AI 趋势

获取有关最重要且最有趣的 AI 新闻的精选洞察分析。订阅我们的每周 Think 时事通讯。请参阅 IBM 隐私声明

谢谢!您已订阅。

您的订阅将以英语提供。您会在每份时事通讯中找到一个取消订阅链接。您可以在此处管理您的订阅或取消订阅。有关更多信息,请参阅我们的 IBM 隐私声明

什么是欠拟合?

欠拟合是数据科学中的一种情况,即数据模型无法准确捕捉输入和输出变量之间的关系,从而在训练集和未见过的数据上产生高错误率。

当模型过于简单时就会发生欠拟合,这可能是因为模型需要更多训练时间、更多输入特征或正则化程度较低所导致。

过拟合一样,当模型欠拟合时,它无法在数据中建立主导趋势,从而导致训练错误和模型性能不佳。如果模型不能很好地泛化到新数据,那么它就不能被用于分类预测任务。通过将模型泛化至新数据,最终我们能够每天使用机器学习算法做出预测,并对数据进行分类。

高偏差和低方差是欠拟合的良好指标。由于这种行为在使用训练数据集时就能看到,因此欠拟合的模型通常比过拟合的模型更容易识别。

Mixture of Experts | 12 月 12 日,第 85 集

解码 AI:每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见,带来最新的 AI 资讯与深度解析。

欠拟合与过拟合

简而言之,过拟合与欠拟合相反,当模型训练过度或包含太多复杂性时就会发生过拟合,导致测试数据的错误率很高。模型过拟合比欠拟合更常见,并且欠拟合通常是为了通过称为“提前停止”的过程来避免过拟合。

如果训练不足或缺乏复杂性导致欠拟合,那么合乎逻辑的预防策略是增加训练持续时间或添加更多相关输入。但是,如果对模型训练过多或向模型添加过多特征,则可能会出现模型过拟合,从而导致低偏差但高方差(即偏差-方差权衡)。在这种情况下,统计模型与其训练数据过于紧密匹配,导致它无法很好地推广到新的数据点。值得注意的是,某些类型的模型比其他模型更容易出现过拟合现象,例如决策树KNN

识别过拟合可能比欠拟合更困难,因为与欠拟合不同,训练数据在过拟合模型中的执行精度很高。为了评估算法的准确性,通常使用一种称为 k 折交叉验证的技术。

在 K 折交叉验证中,数据被拆分为 k 个大小相等的子集,这些子集也称为“折叠”。其中一个“k 折”将充当测试集,也称为留出集或验证集,其余“折叠”则用于训练模型。不断重复这个过程,直到每个“折叠”都用作留出“折叠”。每次评估后,都会保留一个分数,在完成所有迭代后,会求这些分数的平均值,用于评估整个模型的性能。

拟合模型时,理想的情况是在过拟合和欠拟合之间找到平衡。确定两者之间的“最佳平衡点”使机器学习模型能够准确地进行预测。

如何避免欠拟合

由于我们可以根据训练集检测欠拟合,因此可以更好地协助在一开始就建立输入和输出变量之间的主导关系。通过保持足够的模型复杂性,我们可以避免欠拟合并做出更准确的预测。以下是一些可用于减少欠拟合的技术:

减少正则化

正则化通常用于通过对具有较大系数的输入参数施加惩罚来减少模型的方差。有许多不同的方法,例如 L1 正则化、Lasso 正则化、dropout 等,有助于减少模型中的噪声和异常值。然而,如果数据功能变得过于统一,模型则无法识别主导趋势,从而导致欠拟合。通过减少正则化的数量,模型会引入更多的复杂性和变化,从而成功训练模型。

增加训练持续时间

如前所述,过早停止训练也会导致模型欠拟合。因此,可以通过延长训练持续时间来避免。然而,重要的是要认识到过度训练,及其引发的过拟合。在这两种情况之间找到平衡点将是关键所在。

特征选择

对于任何模型,都要利用特定的功能来确定特定的结果。如果没有足够的预测功能,则应引入更多功能或更重要的功能。例如,在神经网络中,可以增加更多的隐藏神经元;在随机森林中,可以增加更多的树。这一过程将为模型注入更多的复杂性,从而获得更好的训练结果。

相关解决方案
IBM watsonx.ai

使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。

了解 watsonx.ai
人工智能 (AI) 解决方案

借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。

深入了解 AI 解决方案
AI 咨询与服务

通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。

深入了解人工智能服务
采取后续步骤

一站式访问跨越 AI 开发生命周期的功能。利用用户友好型界面、工作流并访问行业标准 API 和 SDK,生成功能强大的 AI 解决方案。

深入了解 watsonx.ai 预约实时演示