什么是多重共线性?

女商人在办公室用笔记本电脑工作

作者

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Business Development + Partnerships

IBM Research

什么是多重共线性?

多重共线性是指线性回归方程中的独立变量何时相互关联。针对看不见的数据的模型预测,多重共线变量可能会对其产生负面影响。有几种正则化技术可用于检测和修复多重共线性。

多重共线性还是共线性?

共线性指的是回归分析中两个自变量本身相关;多重共线性指的是两个以上的自变量相关。1 它们的对立面是正交性,指的是自变量不相关。多重共线性会增加模型复杂性和过拟合,从而阻止预测模型生成准确的预测。

背景:回归分析

标准多变量线性回归方程式如下:

标准多元线性回归公式

Y 是预测输出(因变量),X 是任何预测变量(自变量或解释变量)。B 是附加的回归系数,它衡量假设所有其他预测变量保持不变的情况下,伴随预测变量 (Xn) 中每 1 个单位变化的 Y 的变化。X0 是自变量等于零时响应变量 (Y) 的值。此最终值也称为 y 截距。2

当然,这个多项式方程旨在衡量和映射 YXn 之间的相关性。在理想的预测模型中,任何自变量 (Xn) 本身都不相关。然而,这经常发生在使用真实世界数据的模型中,特别是当模型设计有许多自变量时。

多重共线性的影响

创建预测模型时,我们需计算系数,因为事先很少已知道它们。为了估计回归系数,我们使用了标准普通最小二乘法 (OLS) 矩阵系数估算器:

OLS 系数矩阵方程

理解此公式的运算需先熟悉矩阵符号表示法。但目前,我们仅需了解 X 矩阵的大小和内容是由选作此模型的参数的自变量来决定的。此外,各预测变量之间的相关度(也称为相关系数,表示为)也被用于计算 XY 之间的回归系数。3

由于模型中包含或排除了自变量,任何一个预测变量的估计系数都可能发生巨大变化,从而使得系数估计值变得不可靠、不精确。两个或多个预测变量之间的相关性给确定任何一个变量对模型输出的单独影响带来了困难。请记住,回归系数衡量的是假设其他预测变量保持不变的情况下,特定预测变量对输出结果的影响。但如果预测变量是相关的,则可能无法将预测变量分离出来。因此,多重共线变量的估计回归系数并不反映任何一个预测变量对输出结果的影响,而是反映预测变量的部分影响,具体取决于模型中的协变量。4

此外,具有相同多重共线性变量的不同数据样本,甚至还有数据的微小变化均可能会产生差异很大的回归系数。过拟合可能是最广为人知的多重共线性问题。过拟合是指模型具有较低的训练误差和较高的泛化误差。如上所述,任何一个多重共线变量的统计显著性在与其他变量的关系噪声中仍是不明确的。这可阻止精确计算任一变量对模型输出的统计显著性,而系数估计在很大程度上却能体现这一点。由于多重共线性会阻碍计算精确的系数估计值,因此多重共线性模型无法推广到未知数据。因此,多重共线变量的估计系数将具有较大的波动性(也称为较大的标准误差)。5

多重共线性的类型

多重共线性的程度

统计学教科书和文章有时会对极端与完美多重共线性进行区分。完美多重共线性表示一个自变量与一个或多个自变量具有完美线性相关性。极端多重共线性是指一个预测变量与一个或多个其他自变量高度相关。6 它们是多重共线性的两个主要程度。

多重共线性的原因

与其说是离散形式的多重共线性,不如说是不同的潜在原因。这些原因可能涵盖所考虑数据的性质以及设计不当的实验。其中部分常见原因有:

- 数据收集:如果对相关数据的非代表性子空间进行采样,便会出现这种基于数据的多重共线性。例如,Montgomery 等人提供了一个供应链配送数据集示例,而其中的订单配送距离与规模均为某一预测模型的自变量。在他们提供的数据中,订单库存大小似乎会随着配送距离的上升而增加。解决这种相关性的方法很简单:收集并包含数据样本,以用于具有大量库存的短途配送,反之亦然。7

- 模型约束:这与数据收集原因类似,但并不完全相同。由于相关数据和预测模型变量的性质,可能会产生多重共线性。试想,我们正在创建一个预测模型来衡量员工对工作场所的满意度,而每周工作小时数和报告的压力程度则是若干预测变量中的其中两个。由于数据的性质,这些预测变量之间很可能存在相关性,也就是说,即工作量更高的人员可能会报告更高的压力程度。如果将教育程度和薪资作为模型预测变量,则可能会出现类似的情况:受教育程度更高的员工可能收入更高。在此情况下,收集更多数据可能无法缓解问题,因为多重共线性是数据自身固有的一种特性。

- 过度定义模型:当模型预测变量多于数据观测点时,便会出现多重共线性。此问题在生物统计学或其他生物学研究中尤其常见。解决过度定义的模型需从模型中彻底消除选定的预测变量。但是,又该如何确定删除哪些模型呢?为此,可以使用回归量子集(即预测变量)进行几项初步研究或利用主成分分析 (PCA) 来组合多重共线性变量。8

基于数据的多重共线性和结构性多重共线性

选择某些类型的数据尤其易于导致多重共线性。其中,时间序列数据最为重要。增长与趋势因素(尤其是在经济学领域)通常会随着时间的推移而朝着同一方向移动,从而易于产生多重共线性。此外,社会科学领域的观察性研究也易引发多重共线性,因为很多社会经济变量(例如,收入、教育程度、政治派别等)通常相互关联且不受研究人员的控制。9

对预测变量进行操作也可能会导致多重共线性。某些情况下,可使用自变量的平方或滞后值来作为新的模型预测变量。当然,这些新的预测变量将与产生它们的自变量高度相关。10 这就是结构性多重共线性。

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

如何检测多重共线性

较大的估计系数本身可以表示存在多重共线性,并且当在模型中添加或删除单个预测变量(甚至数据点)时,估计系数会发生巨大变化。置信区间较大的系数也表示存在多重共线性。有时,系数的符号或大小与初步数据分析得出的预期相反,可能表示存在多重共线性。当然,这些都不能明确证实存在多重共线性,也不能提供多重共线性的定量测量。11 不过,有几种诊断方法有助于做到这一点。

用于测量多重共线性的两个相对简单的工具分别为:散点图和自变量的相关矩阵。使用散点图时,可针对其他数据点绘制每个数据点的对应自变量值。如果散点图显示所选变量之间存在线性相关性,则可能存在一定程度的多重共线性。此图说明了某一散点图(使用了 Montgomery 等人的配送数据集示例)中的多重共线性数据。

交付时间与订单数量的散点图示例

另一种诊断方法是计算所有自变量的相关矩阵。矩阵的元素是模型中每个预测变量之间的相关系数。相关系数是 -1 到 1 之间的值,用于衡量两个预测变量之间的相关程度。请注意矩阵如何包含 1s 的对角线,因为每个变量都与自身具有完美的相关性。给定矩阵元素越高,它们之间的相关性就越大。12

相关矩阵

方差膨胀因子

方差膨胀因子 (VIF) 是用于确定线性回归模型中多重共线性的程度的最常用方法。每个模型预测变量均有一个 VIF 值,而它可用于衡量该预测变量的方差被模型的其他预测变量夸大的程度。

VIF 算法包含几个步骤。不过,对这种算法的完整解释超出了本文的范围。简而言之,VIF 衡量所选变量在由模型其他自变量决定的方差中所占的比例。表示 VIF 的等式为:

VIF 公式

R 平方值 (R2) 表示通过一个自变量相对于所有其他自变量进行回归而获得的多重决定系数。13 VIF 方程的底项是容差,这是一个不同于容差区间的概念。容差是 VIF 的倒数。虽然在文献中讨论得较少,但它仍然是计算多重共线性的另一种可行方法。14

VIF 值越大,多重共线性的程度便越高。没有 VIF 临界值可用于确定“不良”或“良好”的模型。然而,被广泛重复使用的一条经验法则是:VIF 值大于等于 10 即表示存在严重的多重共线性。15

请注意,R 和 Python 均包含用于计算 VIF 的函数。R 的 car 软件包中的 vif() 函数以及 Python 的 statsmodels.stats 模块中的 variance_inflation_factor() 函数均可用于计算指定模型的 VIF 值。16

如何解决多重共线性

如前所述,多重共线性的简易修复方法涵盖:从多样化或扩大训练数据的样本量到彻底删除参数。有几种正则化方法也有助于纠正多重共线性问题。岭回归是一种被广泛推荐使用的方法,它涉及惩罚高值系数,从而降低多重共线性预测变量对模型输出结果造成的影响。套索回归同样也会惩罚高值系数。这两种方法之间的主要区别在于:岭回归仅会将系数值降低为接近零的程度,而套索回归则可将系数降低为零,从而相当于从模型中彻底删除自变量。

示例用例

财务

由于商业与金融研究无法进行受控实验,且主要使用时间序列数据,因此多重共线性是一个长期存在的问题。近期研究对用于解决共线性问题的预测因子去除方法(如 PCA)提出了质疑,理由是这样做可能会删除重要的预测因子。17 此外,研究人员应用岭回归以及由此派生的新型收缩方法,来纠正分析投资管理决策时的多重共线性。18

刑事司法

与社会科学领域的众多其他子领域一样,犯罪学和刑事司法也依赖于观察研究,而其中便经常出现多重共线性。研究人员可使用变量组合(例如 PCA),19 以及变量丢弃方法来解决多重共线性。20 请注意,在后一项研究中,VIF 大于 3 表明多重共线性太高,说明并非所有研究都遵循 VIF > 10 的规则。此外,研究还探讨了多重共线性的其他诊断和解决方法,例如优势分析,该分析可根据预测变量对模型的方差贡献部分对预测变量进行排名。21

Mixture of Experts | 12 月 12 日,第 85 集

解码 AI:每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见,带来最新的 AI 资讯与深度解析。

相关解决方案
IBM watsonx.ai

使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。

了解 watsonx.ai
人工智能 (AI) 解决方案

借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。

深入了解 AI 解决方案
AI 咨询与服务

通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。

深入了解人工智能服务
采取后续步骤

一站式访问跨越 AI 开发生命周期的功能。利用用户友好型界面、工作流并访问行业标准 API 和 SDK,生成功能强大的 AI 解决方案。

深入了解 watsonx.ai 预约实时演示
脚注

1 Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016.

2 Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani, and Jonathan Taylor, An Introduction to Statistical Learning with Applications in Python, Springer, 2023, https://doi.org/10.1007/978-3-031-38747-0

Michael Patrick Allen, Understanding Regression Analysis, Springer, 1997.  Michael Kutner, Christopher Nachtsheim, John Neter, and William Li, Applied Statistical Linear Models, 5th Edition, McGraw-Hill, 2005.

4 Michael Kutner, Christopher Nachtsheim, John Neter, and William Li, Applied Statistical Linear Models, 5th Edition, McGraw-Hill, 2005.

5 Michael Patrick Allen, Understanding Regression Analysis, Springer, 1997.  Michael H. Kutner, Christopher J. Nachtsheim, John Neter, and William Li, Applied Statistical Linear Models, 5th Edition, McGraw-Hill, 2005.

6 Michael Patrick Allen, Understanding Regression Analysis, Springer, 1997.

7 Douglas Montgomery, Elizabeth Peck, and G. Geoffrey Vining, Introduction to Linear Regression Analysis, John Wiley & Sons, 2012.

8 R.F. Gunst and J.T. Webster, "Regression analysis and problems of multicollinearity," Communications in Statistics, Vol. 4, No. 3, 1975, pp. 277-292, https://doi.org/10.1080/03610927308827246

9 Larry Schroeder, David Sjoquist, and Paula Stephan, Understanding Regression Analysis: An Introductory Guide, 2nd Edition, SAGE, 2017.

10 R.F. Gunst and J.T. Webster, "Regression analysis and problems of multicollinearity," Communications in Statistics, Vol. 4, No. 3, 1975, pp. 277-292, https://doi.org/10.1080/03610927308827246

11 Michael Patrick Allen, Understanding Regression Analysis, Springer, 1997.  Michael Kutner, Christopher Nachtsheim, John Neter, and William Li, Applied Statistical Linear Models, 5th Edition, McGraw-Hill, 2005.

12 Michael Kutner, Christopher Nachtsheim, John Neter, and William Li, Applied Statistical Linear Models, 5th Edition, McGraw-Hill, 2005.

13 Raymand Myers, Classical and modern regression with applications, Duxbury Press, 1986. Paul Allison, Multiple Regression: A Primer, Pine Forge Press, 1999. Joseph Hair, William Black, Barry Babin, Rolph E. Anderson, and Ronald Tatham, Multivariate Data Analysis, 6th Edition, Pearson, 2006.

14 Richard Darlington and Andrew Hayes, Regression Analysis and Linear Models: Concepts, Applications, and Implementation, Guilford Press, 2017.

15 Michael Kutner, Christopher Nachtsheim, John Neter, and William Li, Applied Statistical Linear Models, 5th Edition, McGraw-Hill, 2005.

16 Chantal Larose and Daniel Larose, Data Science Using Python and R, Wiley, 2019.

17 Thomas Lindner, Jonas Puck, and Alain Verbeke, "Misconceptions about multicollinearity in international business research: Identification, consequences, and remedies," Journal of International Business Studies, Vol. 51, 2020, pp. 283-298, https://doi.org/10.1057/s41267-019-00257-1

18 Aquiles E.G. Kalatzis, Camila F. Bassetto, and Carlos R. Azzoni, "Multicollinearity and financial constraint in investment decisions: a Bayesian generalized ridge regression," Journal of Applied Statistics, Vol. 38, No. 2, 2011, pp. 287-299, https://www.tandfonline.com/doi/abs/10.1080/02664760903406462. Roberto Ortiz, Mauricio Contreras, and Cristhian Mellado, "Regression, multicollinearity and Markowitz," Finance Research Letters, Vol. 58, 2023, https://doi.org/10.1016/j.frl.2023.104550

19 Kiseong Kuen, David Weisburd, Clair White, and Joshua Hinkle, "Examining impacts of street characteristics on residents' fear of crime: Evidence from a longitudinal study of crime hot spots," Journal of Criminal Justice, Vol. 82, 2022, https://doi.org/10.1016/j.jcrimjus.2022.101984

20 Howard Henderson, Sven Smith, Christopher Ferguson, and Carley Fockler, "Ecological and social correlates of violent crime," SN Social Sciences, Vol. 3, 2023, https://doi.org/10.1007/s43545-023-00786-5 

21 Robert Peacock "Dominance analysis of police legitimacy’s regressors: disentangling the effects of procedural justice, effectiveness, and corruption," Police Practice and Research, Vol. 22, No. 1, 2021, pp. 589-605, https://doi.org/10.1080/15614263.2020.1851229