多重共線性とは

オフィスでノートPCを使って仕事をするビジネスウーマン

共同執筆者

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Business Development + Partnerships

IBM Research

多重共線性とは

多重共線性は、線形回帰の独立変数が相関していることを示します。多重共線性は目に見えないデータに対するモデルの予測に対して悪影響を与える可能性があります。いくつかの正則化の手法では多重共線性を検知し、修正できます。

多重共線性または共線性とは

共線性は、回帰分析において2つの独立変数自体が相関していることを示します。多重共線性は、2つ以上の独立変数が相関していることを示します。1その反対は直交性であり、独立変数が相関しないことを意味します。多重共線性により、モデルの複雑さが増し、過剰適合となるため、予測モデルは正確な予測を生成できなくなります。

コンテキスト:回帰分析

標準的な多重線形回帰の等式は次のとおりです。

標準的な多重線形回帰の式

Yは予測出力(従属変数)で、Xは任意の予測変数(独立変数または説明変数)です。Bは回帰係数で、他のすべての予測変数が一定であると仮定して、付随する予測変数(Xn)が1単位変化するごとにYの変化を測定します。X0は、独立変数が0に等しい場合の応答変数(Y)の値です。この最終値はy切片とも呼ばれます。2

もちろん、この多項式方程式は、YXnの間の相関を測定し、マッピングすることを目的としています。理想的な予測モデルでは、独立変数(Xn)自体は相関していません。それにもかかわらず、特に多くの独立変数を用いて設計されているモデルにおいて、現実世界のデータを使用した場合にしばしば起こりえます。

多重共線性の影響

予測モデルを作成する場合、係数が事前にわかることはほとんどないため、係数の計算が必要となります。回帰係数を推定するには、最小二乗法(OLS)マトリックス係数推定量を使用します。

OLS係数マトリックス方程式

この式の演算を理解するには、行列表記法に精通している必要があります。しかし現時点では、X行列のサイズと内容は、モデルのパラメーターとして選択された独立変数によって決定されるということだけを理解していれば十分です。さらに、予測変数との相関の程度(相関係数と呼ばれ、式で表されます)が、XおよびYの間の回帰係数の計算に使用されます。3

独立変数がモデルに含まれ、または除外されるたびに、1つの予測変数の推定係数が大幅に変化する可能性があり、係数の推定値の信頼性が低下し、不正確になります。2つ以上の予測変数間に相関があると、モデルの出力に対し1つの変数が個別に与える影響を判断することが難しくなります。回帰係数は、他の予測変数の係数が一定であると仮定し、特定の予測変数が出力に及ぼす影響を測定するという点に留意してください。しかし、予測変数に相関関係がある場合、予測変数を分離できないことがあります。したがって、多重共線性のある変数の推定回帰係数は、1つの予測変数が出力に与える影響を反映するのではなく、モデル内のどの共変量が含まれているかに依存する予測変数の部分的な影響を反映します。4

さらに、同じ多重共線性を持つ変数であっても、異なるデータ・サンプルやデータ内の小さな変化によって大きく異なる回帰係数が生成されることがあります。これを過剰適合といい、多重共線性における問題としておそらく最も広く知られています。過剰適合とは、学習誤差が少なく、汎化誤差が高いモデルのことです。前述のように、多重共線性のある変数の統計的有意性は、他の変数との相関ノイズの中では不明確なままです。これにより、係数推定が主として示しているように、モデルの出力における1つの変数の統計的有意性を正確に計算できなくなります。多重共線性が原因で正確な推定係数が計算できないため、多重共線性もデルは目に見えないデータに対する一般化ができません。このように、多重共線性のある変数の推定係数は、大きな標準誤差とも呼ばれる大きな変動性があります。 5

多重共線性の種類

多重共線性の強度

統計学の教科書や記事では、極端な多重共線性と完全な多重共線性を分けて扱うことがあります。完全な多重共線性は、1つの独立変数が1つ以上の独立変数と完全な線形相関があることを意味します。極端な多重共線性とは、1つの予測変数が1つ以上の追加の独立変数と高い相関を持つことを意味します。6これらは、多重共線性の2つの主要な強度です。

多重共線性が起きる原因

多重共線性には、さまざまな原因が考えられるため、明確な形というものはそれほど多くありません。これらの原因は、検討中のデータの性質から、設計が不十分な実験まで、多岐にわたります。一般的な原因として、次のようなものが挙げられます。

− データ収集データに起因する多重共線性は、問題のデータについて代表的でない部分空間をサンプリングした場合に生じる可能性があります。例えば、Montgomeryらが提示した、注文の距離とサイズが予測モデルの独立変数であるサプライチェーンの配送データセットの例があります。提供されたデータでは、注文の在庫サイズは配送距離に応じて増加するようになっています。この相関関係は、大量の在庫を持つ短距離配送やその逆のデータサンプルを収集して含めれば簡単に解決できます。7

モデルの制約これはデータ収集と似ていますが、同一ではありません。問題のデータや予測モデル変数の性質により、多重共線性が生じる場合があります。職場における従業員の満足度を測定する予測モデルを作成しているとしましょう。週あたりの労働時間と報告されたストレスは、いくつかある予測変数のうちの2つです。データの性質上、これらの予測変数間には相関関係がある可能性が高いです。例えば、仕事量が多い人は、ストレスが高いと報告する可能性が高くなるでしょう。教育と給与がモデル予測変数である場合も、同じことが起こりえます。教育水準が高い従業員ほど収入が高い可能性があるからです。この場合、多重共線性はデータそのものに備わっているため、より多くのデータを収集しても問題は解決されないかも知れません。

−過剰定義モデルでは、多重共線性は、データ観測点の数よりもモデル予測変数の数が多い場合に発生する可能性があります。この問題は、特に生物統計学やその他の生物学的研究で発生する可能性があります。過剰定義モデルを解決するには、モデルから特定の予測変数を完全に削除する必要があります。しかし、どのモデルを削除するかどうやって決定するのでしょうか。予測変数(つまり予測変数)のサブセットを使っていくつかの予備的な研究を行ったり、主コンポーネント分析(PCA)を利用して多重共線性変数を組み合わせたりすることができます。8

データに基づく多重共線性および構造的多重共線性

データの種類によっては、多重共線性が起こる可能性があります。主な例として時系列データが挙げられます。特に経済学において、成長要因やトレンド要因は時間の経過とともに同じ方向に移動することが多いため、多重共線性が発生しやすくなります。さらに、社会科学における観察研究は、多くの社会経済的変数(例えば、所得、教育水準、政治的所属など)が相互に関連し、研究者によって制御されていないことが多いため、多重共線性が生じやすくなります9

多重共線性は予測変数の操作によっても発生する可能性があります。場合によっては、独立変数の2乗値や遅延値を新しいモデル予測変数として使用することができます。もちろん、これらの新しい予測変数は、それらが導出された独立変数と高い相関関係を共有します。10.これが構造的な多重共線性です。

ニュースレターを表示しているスマホの画面

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

多重共線性を検出する方法

推定係数が大きいことは、それ自体が多重共線性の存在を示す可能性があるだけでなく、単一の予測変数(またはデータ・ポイント)がモデルに追加または削除された際、推定係数に大きな変化があることを示すこともあります。信頼区間が大きい係数も多重共線性を示しています。場合によっては、予備データ分析から得られた予想に反する記号または重大度を持つ係数が、多重共線性を示すこともあります。もちろん、いずれも多重共線性を決定的に確定するものではなく、多重共線性の定量的測定もできません11。いくつかの測定方法は多重共線性を判定の一助となります。

多重共線性を測定するための比較的単純なツールとして、散布図と独立変数の相関行列の2つがあります。散布図を使用する場合は、各データ・ポイントの独立変数値を互いにプロットします。散布図によって、選択した変数間の線形相関が明らかになった場合、多重共線性が存在する可能性が一定程度あります。この図は、Montgomeryらによるデータ・セットを使用した散布図における多重共線性のあるデータを示しています。

配達時間と注文サイズの散布図の例

別の判定方法は、すべての独立変数について相関行列を計算することです。行列の要素は、モデル内の各予測変数間の相関係数です。相関係数は-1と1の間の値で、2つの予測変数間の相関度合いを測定します。各変数はそれ自体と完全な相関関係があるため、行列の対角線が1であることに注意してください。特定のマトリックス要素が高いほど、それらの間の相関度合いが高くなります。12

相関行列

差異膨張係数

分散インフレーション係数(VIF)は、線形回帰モデルにおいて多重共線性の度合いを決定する最も一般的な方法です。各モデルの予測変数はVIF値を持ち、その予測変数の分散がモデルの他の予測変数によってどれだけ増大しているかを測定します。

VIFアルゴリズムには、いくつかのステップがあります。ただし、このアルゴリズムについてすべてを説明するのは、本記事の目的から外れます。ここでは、VIFはモデルの他の独立変数によって決定された分散に対する選択された変数の割合を測定します、とだけ説明します。VIFを表す数式は次のとおりです。

VIFの式

R二乗(R2)は、1つの独立変数を他のすべての変数に対して回帰することによって得られる多重決定の係数を意味します。13VIF方程式の分母は許容度であり、許容空間とは異なる概念です。許容はVIFの逆数です。文献ではあまり議論されませんが、多重共線性を計算するもう一つの有効な方法です。14

VIF値が高いほど、多重共線性の度合いが高くなります。モデルが「不良」か「良好」かを判断するVIFのしきい値はありません。それにもかかわらず、これまでの経験則では、10以上のVIF値はかなりの多重共線性を示します。15

RとPythonにはVIFを計算する関数が含まれていることに注意してください。それぞれ、RのCarパッケージのvif()関数とPythonのstatsmodels.statsモジュールのvariance_inflation_factor()関数は、指定されたモデルのVIFを計算できます。16

多重共線性を修正する方法

前述のように、多重共線性の簡単な修正には、トレーニング・データのサンプル・サイズの多様化や拡大から、パラメーターの完全削除まで多岐にわたります。いくつかの正則化技術も、多重共線性の問題を解決する一助となります。リッジ回帰は、高値の係数にペナルティを加えることで、多重共線のある予測変数がモデルの出力に与える影響を減らすことで、広く推奨されている方法です。ラッソ回帰でも同様に、値の高い係数にペナルティーを課します。この2つの主な違いは、リッジ回帰は係数値をゼロに近い値に減らすだけであるのに対し、ラッソ回帰は係数をゼロまで減らし、独立変数をモデルから効果的に完全に削除できる点です。

ユースケースの例

財務

ビジネスや金融の研究では、管理された実験を行ったり、たいていは時系列データを扱ったりができないため、多重共線性の問題が常につきまといます。最近の研究では、重要な予測変数が除去される可能性があることから、現場における共線性を解決するために予測変数のドロップ方法(例:PCA)を試しています。17他方、研究者はリッジ回帰とそこから導き出された新しい縮小化法を適用し、投資運用の決定を分析する際におこる多重共線性を修正しています。

刑事司法

社会科学の他の多くの分野と同様に、犯罪学と刑事司法は観察研究に依存しているため、しばしば多重共線性が生じます。研究者は、多重共線性を解決するために、変数結合(例えばPCA)19変数減少法と共に使用します。20後者の研究では、VIFが3より大きいと多重共線性が高すぎることを示しており、すべての研究がVIF>10のルールに従っているわけではないことを示しています。モデルに寄与する分散の割合に基づいて予測変数のランク付けを行うドミナンス分析など、多重共線性の判定法や解決法についても研究されています。21

オフィスでミーティングをするビジネスチーム

IBMお客様事例

お客様のビジネス課題(顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など)を解決した多岐にわたる事例のご紹介です。

関連ソリューション
IBM watsonx.ai

AI開発者向けの次世代エンタープライズ・スタジオであるIBM watsonx.aiを使用して、生成AI、基盤モデル、機械学習機能をトレーニング、検証、チューニング、導入しましょう。わずかなデータとわずかな時間でAIアプリケーションを構築できます。

watsonx.aiをご覧ください。
人工知能ソリューション

業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。

AIソリューションはこちら
AIコンサルティングとサービス

AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。

AIサービスはこちら
次のステップ

AI開発ライフサイクル全体にわたる機能にワンストップでアクセスできます。使いやすいインターフェース、ワークフロー、業界標準のAPIやSDKを利用して、強力なAIソリューションを構築できます。

watsonx.aiの詳細はこちら デモを予約
脚注

1 Max Kuhn、Kjell Johnson著、 「Applied Predictive Modeling」、出版社:Springer、2016年。

2 Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani, and Jonathan Taylor著、 「An Introduction to Statistical Learning with Applications in Python」、出版社:Springer、2023年、 https://doi.org/10.1007/978-3-031-38747-0

Michael Patrick Allen著、 「Understanding Regression Analysis」、出版社:Springer、1997年。  Michael Kutner、Christopher Nachtsheim、John Neter、William Li著、 「Applied Statistical Linear Models」、第5版 、出版社:McGraw-Hill、2005年。

4 Michael Kutner、Christopher Nachtsheim、John Neter、William Li著、 「Applied Statistical Linear Models」、第5版 、出版社:McGraw-Hill、2005年。

5 Michael Patrick Allen著、 「Understanding Regression Analysis」、出版社:Springer、1997年。  Michael H. Kutner、Christopher J. Nachtsheim、John Neter、William Li著、 「Applied Statistical Linear Models」、第5版 、出版社:McGraw-Hill、2005年。

6 Michael Patrick Allen著、 「Understanding Regression Analysis」、出版社:Springer、1997年。

7 Douglas Montgomery、Elizabeth Peck、G. Geoffrey Vining著、 「Introduction to Linear Regression Analysis」、出版社:John Wiley & Sons、2012年。

8 R.F. Gunst、J.T. Webster著、「Regression analysis and problems of multicollinearity」、 Communications in Statistics、Vol. 4、No. 3、1975年、277~292ページ、 https://doi.org/10.1080/03610927308827246

9 Larry Schroeder, David Sjoquist, and Paula Stephan著、 「Understanding Regression Analysis: An Introductory Guide」第2版 、出版社:SAGE、2017年。

10 R.F. Gunst、J.T. Webster著、「Regression analysis and problems of multicollinearity」、 「Communications in Statistics」誌、Vol. 4、No. 3、1975年、277~292ページ、 https://doi.org/10.1080/03610927308827246

11 Michael Patrick Allen著、 「Understanding Regression Analysis」、出版社:Springer、1997年。  Michael Kutner、Christopher Nachtsheim、John Neter、William Li著、 「Applied Statistical Linear Models」、第5版 、出版社:McGraw-Hill、2005年。

12 Michael Kutner、Christopher Nachtsheim、John Neter、William Li著、 「Applied Statistical Linear Models」、第5版 、出版社:McGraw-Hill、2005年。

13 Raymand Myers著、 「Classical and modern regression with applications」、出版社:Duxbury Press、1986年。Paul Allison著、 「Multiple Regression: A Primer」、 出版社:Pine Forge Press、1999年。Joseph Hair、William Black、Barry Babin、Rolph E. Anderson、Ronald Tatham著、 「Multivariate Data Analysis」、第6版 、出版社:Pearson、2006年。

14 Richard Darlington、Andrew Hayes著、 「Regression Analysis and Linear Models: Concepts, Applications, and Implementation」、出版社:Guilford Press、2017年。

15 Michael Kutner、Christopher Nachtsheim、John Neter、William Li著、 「Applied Statistical Linear Models」、第5版 、出版社:McGraw-Hill、2005年。

16 Chantal Larose、Daniel Larose著、 「Data Science Using Python and R」、出版社:Wiley、2019年。

17 Thomas Lindner、Jonas Puck、Alain Verbeke著、「Misconceptions about multicollinearity in international business research: Identification, consequences, and remedies」、 「Journal of International Business Studies」誌、Vol. 51、2020年、283~298ページ、 https://doi.org/10.1057/s41267-019-00257-1

18 Aquiles E.G. Kalatzis、Camila F. Bassetto、Carlos R. Azzoni著、「Multicollinearity and financial constraint in investment decisions: a Bayesian generalized ridge regression」、 「Journal of Applied Statistics」誌、Vol. 38、No. 2、2011年、287~299ページ、 https://www.tandfonline.com/doi/abs/10.1080/02664760903406462。Roberto Ortiz、Mauricio Contreras、Cristhian Mellado著、「Regression, multicollinearity and Markowitz」、 「Finance Research Letters」誌、Vol. 58、2023年、 https://doi.org/10.1016/j.frl.2023.104550

19 Kiseong Kuen、David Weisburd、Clair White、Joshua Hinkle著、「Examining impacts of street characteristics on residents' fear of crime: Evidence from a longitudinal study of crime hot spots」、 「Journal of Criminal Justice」誌、Vol. 82、2022年、 https://doi.org/10.1016/j.jcrimjus.2022.101984

20 Howard Henderson、Sven Smith、Christopher Ferguson、Carley Fockler著、「Ecological and social correlates of violent crime」、 「SN Social Sciences」誌、Vol. 3、2023年、 https://doi.org/10.1007/s43545-023-00786-5 

21 Robert Peacock著、「Dominance analysis of police legitimacy’s regressors: disentangling the effects of procedural justice, effectiveness, and corruption」、 Police Practice and Research, Vol. 22、No. 1、2021年、589~605ページ、 https://doi.org/10.1080/15614263.2020.1851229