マイIBM

ログイン

ニュースレター

リッジ回帰とは

2023年11月21日

共同執筆者

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Program Manager

リッジ回帰とは

リッジ回帰は、統計的な正則化手法です。機械学習モデルにおけるトレーニングデータの過剰適合を修正します。

リッジ回帰（L2正則化とも呼ばれる）は、線形回帰モデルにおけるいくつかの正則化タイプの1つです。正規化とは、トレーニング・データの過剰適合による誤差を減らすための統計的手法です。リッジ回帰は、回帰分析における多重共線性を特に修正します。リッジ回帰は、多数のパラメーターを持つ機械学習モデルを開発する場合、特にそれらのパラメーターの重みも大きい場合に有用です。本記事では線形回帰モデルの正則化に焦点を当てていますが、リッジ回帰はロジスティック回帰にも適用できる点に留意してください。

問題：多重共線性

標準的な多変量線形回帰は次のとおりです。

ここで、Yは予測値（従属変数）、Xは任意の予測変数（独立変数）、Bはその独立変数に関連付けられた回帰係数、X₀は独立変数がゼロに等しい場合の従属変数の値（Y切片とも呼ばれます）。係数が従属変数と特定の独立変数の間の関係をどのようにマークするかに注目してください。

多重共線性は、2つ以上の予測変数がほぼ線形の関係にあることを示します。Montgomeryらは1つの例を挙げています。長距離配送には常に多数の商品が含まれ、短距離配送には常に少量の在庫が含まれるという、サプライチェーンの配送データ・セットの分析を考えてください。この場合、図1に示すように、配送距離と商品数量は線形相関があります。これにより、単一の予測モデルでこれらを独立変数として使用する際、問題が発生します。

これは多重共線性の一例にすぎず、その修正は比較的単純で、より多様なデータ（例えば、大規模なインベントリーを伴う近距離配達のデータなど）を収集するというものです。ただし、調査対象のデータそのものに多重共線性がある場合などは、より多くのデータを収集することが必ずしも有効な解決策になるとは限りません。多重共線性を修正するための他のオプションには、サンプル・サイズを増やすこと、独立変数の数を減らすこと、あるいは単に別のモデルを利用することが挙げられます。ただし、このような修正によって多重共線性が常に排除できるとは限らず、多重共線性に対処するためにモデルを正則化する別の方法として、リッジ回帰があります。¹

リッジ回帰のしくみ：正則化アルゴリズム

最初に予測モデルを開発する際、学習データにおいて係数が明示的に示されていないため、係数を計算しなければならないことがよくあります。係数を推定するには、最小二乗法（OLS）マトリックス係数推定量を使用できます。

この式の演算を理解するには、行列表記法に精通している必要があります。この式は、与えられたデータセットに最適な直線を見つけるため、各独立変数の係数を計算し、それらが最小の残差平方和（または二乗誤差の和）を実現することを目的としています。²

残差平方和（RSS）は、線形回帰モデルが学習データとどの程度一致するかを測定します。これは次の公式で表されます。

この式は、トレーニングデータ内の実測値のモデル予測精度を測定します。RSS=0の場合、モデルは従属変数を完全に予測します。ただし、スコアがゼロであることが常に望ましいとは限りません。特にトレーニング・データセットが小さい場合、トレーニング・データを過剰適合していることを示すことがあるためです。スコアがゼロになる原因として、多重共線性が1つの可能性として挙げられるということです。

係数の推定値が高いと、多くの場合、過剰適合の兆候といえます。³2つ以上の変数が高い線形相関を共有している場合、OLSは誤って高い値の係数を返すことがあります。1つ以上の係数が高すぎる場合、入力データの小さな変更であっても、モデルの出力結果は影響を受けやすくなります。言い換えれば、モデルは特定のトレーニング・セットを過剰適合しており、新しいテスト・セットに対し精度の良い予測ができないことを意味します。このようなモデルは不安定であると見なされます。⁴

リッジ回帰は、潜在的に相関する予測変数を考慮に入れた係数を計算することでOLSを修正します。具体的には、リッジ回帰は、正則化項（しばしばペナルティー項と呼ばれる）をRSS関数に導入することによって、高い値を示す係数を補正します。このペナルティー項は、モデルの係数の二乗和です。⁵これは次の公式で表されます。

L2ペナルティー項はRSS関数の終わりとして挿入され、その結果、リッジ回帰推定量という新しい式が生成されます。式の中で、モデルに対する影響はハイパーパラメーターのラムダ（λ）によって制御されます。

係数は、特定の予測子（つまり、独立変数）に対する予測値（つまり、従属変数）に対する影響を示すことに注意してください。RSS式に追加されると、L2ペナルティー項はすべての係数値を減らすことで、特に値の高い係数に対処します。統計では、これを係数縮小と呼びます。したがって、上記のリッジ推定量は、特定のモデルのRSSを低減する新しい回帰係数を計算します。これにより、すべての予測変数の影響が最小限に抑えられ、トレーニング・データへの過剰適合が低減されます。⁶

リッジ回帰では、すべての係数が同じ値だけ縮小されるわけではないことに注意してください。むしろ、係数は初期サイズに比例して縮小されます。λが増加すると、高い値の係数は低い値の係数よりも大きい割合で縮小されます。⁷したがって、高い値の係数は、低い値の係数よりも大きなペナルティーが課せられます。

リッジ回帰とラッソ回帰

L2ペナルティーはゼロに向かって係数が縮小しますが、絶対ゼロにはならないことに注意してください。リッジ回帰では、モデルの特徴量の重みは無視できるほど小さくなることはあっても、ゼロになることは決してありません。係数をゼロに減らすと、対になる予測変数をモデルから事実上、削除することになります。これは特徴選択と呼ばれ、多重共線性を補正する別の方法です。⁸リッジ回帰では回帰係数をゼロにしないため、特徴選択を行いません。⁹これはリッジ回帰の欠点としてよく挙げられます。さらに、よく言及される別の欠点として、深刻な多重共線性に直面した場合、リッジ回帰では予測変数の効果を分離できないことが挙げられます。¹⁰

ラッソ回帰（L1正則化とも呼ばれる）は、線形回帰における正則化手法の1つです。L1正則化は、係数をゼロに減らすことで機能し、本質的に独立変数をモデルから除外します。つまり、方法は異なるものの、ラッソ回帰とリッジ回帰はモデルの複雑さを軽減します。ラッソ回帰は、出力に影響を与える独立変数の数を減らします。リッジ回帰は、各独立変数が出力に与える重みを減らします。

その他の回帰正則化手法

エラスティックネットは、正則化の手段の1つです。リッジ回帰は二乗誤差の和から正則化パラメーターを取得し、ラッソ回帰は誤差の絶対値の和から独自の正規化パラメーターを取得しますが、エラスティックネットは双方の回帰の正則化パラメーターをRSS損失関数に組み込みます。¹¹

主成分回帰（PCR）もまた、正則化手順として利用できます。PCRは多重共線性を解決できますが、リッジ回帰やラッソ回帰のようにRSS関数にペナルティーを課すわけではありません。むしろPCRは、相関のある予測変数の線形結合を生成し、それによって新たな最小二乗モデルを作成します。¹²

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

今すぐ登録

機械学習におけるリッジ回帰

モデルの複雑さ

機械学習では、モデルの複雑が原因で生じる過剰適合を、リッジ回帰を用いて軽減できます。モデルが複雑になる原因として以下が考えられます。

特徴量が多すぎるモデル。特徴量はモデルの予測変数であり、機械学習では「パラメーター」と呼ばれることもあります。オンライン・チュートリアルでは多くの場合、特徴量の数をトレーニング・データ・セットのインスタンス数より少なく保つことを推奨しています。しかし、常に実現可能とは限りません。
過度に重みが大きい特徴量。特徴量の重みは、ある予測変数がモデルの出力に与える影響を指します。重みの大きい特徴量は、値の大きい係数と同等です。

単純なモデルが、複雑なモデルよりも一概に優れたパフォーマンスを発揮するとは限りません。ただし、モデルの複雑度が高いと、トレーニング・セット以外の新しいデータに対する汎化能力が発揮できないことがあります。

リッジ回帰では特徴量の選択を行わないため、特徴量の排除によってモデルの複雑さを軽減することはできません。ただし、1つ以上の特徴がモデルの出力に大きく影響する場合、リッジ回帰では、L2ペナルティー項に従ってモデル全体の高い特徴の重み（つまり、係数）が縮小される可能性があります。これにより、モデルの複雑さが軽減され、モデルの予測が1つ以上の特定の特徴量への過度の依存を減らします。

バイアスと分散のトレードオフ

機械学習の用語では、リッジ回帰は、モデルの分散を小さくするためにモデルに偏りを追加することに相当します。偏りと分散のトレードオフは、機械学習においてよく知られた問題です。しかし、偏りと分散のトレードオフを理解するためには、まず機械学習の研究における「偏り」と「分散」のそれぞれの意味を知る必要があります。

簡単に言うと、偏りは予測値と実測値の間の平均の差を測定します。分散は、あるモデルのさまざまな実現値における予測値間の差を測定します。バイアスが大きくなると、トレーニング・データ・セットにおけるモデルの予測の精度が低下します。バリアンスが大きくなると、モデルの他のデータ・セットでの予測精度は低くなります。したがって、バイアスとバリアンスでは、それぞれトレーニング・セットとテスト・セットでのモデルの精度が測定されます。言うまでもなく、開発者はモデルの偏りと差異を軽減したいと考えています。ですが、双方を同時に削減することは常に実現できるとは限らないため、リッジ回帰などの正則化手法が必要になります。

前述したように、リッジ回帰による正則化は、分散を減少させるために偏りを追加します。言い換えれば、リッジ回帰によって正則化されたモデルは、トレーニング・データでの予測精度は低くなります（偏りが大きい）が、テスト・データでの予測精度は高くなります（分散が小さい）。これを偏りと分散のトレードオフといます。リッジ回帰を通じて、ユーザーはあるモデルの汎化能力を高める（分散の小さい）ために、トレーニング精度の低下（偏りが大きい）をどの程度許容するか判断します。¹³このように、偏りを増やすと、モデル全体のパフォーマンスが向上します。

L2ペナルティーの強さ、つまりモデルの偏りと分散のトレードオフは、リッジ推定量の損失関数式における値λによって決定されます。λがゼロの場合、通常の最小二乗関数となります。これにより、正則化されていない、標準的な線形回帰モデルが作成されます。対照的に、λの値が大きいほど正則化が強いことを意味します。λが大きくなると、モデルの偏りも大きくなり、分散は小さくなります。したがって、λがゼロに等しい場合、モデルは学習データを過剰適合しますが、λの値が大きすぎる場合、モデルはすべてのデータに対して過小適合します。¹⁴

平均二乗誤差（MSE）は、適切なλ値を決定する際に有用です。MSEはRSSと密接に関連しており、予測値と実測値の平均的な差を測定する手段です。モデルのMSEの値が低いほど、予測の精度が高くなります。しかし、λの値が高くなるとMSEの値も高くなります。それにもかかわらず、リッジ回帰で得られるMSEがOLSで得られるMSEよりも小さくなるような、ゼロより大きいλの値が常に存在すると主張されています。¹⁵適切なλ値を推定する1つの方法は、図2に示すように、MSEを増加させないλの最高値を見つけることです。追加のクロス検証技術により、ユーザーはモデルの調整に最適なλ値を選択できます。¹⁶

ユースケースの例

回帰モデルは、2つ以上の相関関係のある特徴量を持つデータセットを処理する場合に最適です。さらに、多くの分野では、多数の予測変数と小規模なトレーニング・データセットを持つモデルを扱うためにリッジ回帰が使用されています¹⁷さまざまなデータを扱う場面では、このような状況がよく発生します。

生物統計学

計算生物学や遺伝研究では、特に遺伝発現を調査する場合、予測変数の数がデータ・セットのサンプルサイズを大幅に上回るモデルを扱うことがよくあります。リッジ回帰は、これらの多数の特徴量の重みの総和を軽減し、モデルの予測範囲を圧縮することによって、このようなモデルの複雑さに対処する1つの方法となります。

不動産

住宅の最終売却価格を決定する予測変数は無数にあり（ベッドルームやバスルームの数など）、その多くは相関関係にあります。相関性の高い特徴量があると、回帰係数の値が高くなり、トレーニングデータに過剰適合が生じます。リッジ回帰は、モデルの最終的な予測値における特徴量の重みの総和を減らすことによって、モデルの複雑さを補正します。

ここで挙げた例は、データサイエンスという広い分野における2つの例に過ぎません。しかし、これらの2つの例が示すように、データ・サンプルよりもモデルの特徴量が多いか、モデルが2つ以上の相関の高い特徴量を持つ場合に、リッジ回帰を最も効果的に使うことができます。

参考情報

IBM Graniteはこちら

IBM Graniteは、ビジネス向けにカスタマイズされ、AIアプリケーションの拡張に合わせて最適化された、オープンで高性能、かつ信頼性の高いAIモデル・ファミリーです。言語、コード、時系列、ガードレールのオプションをご覧ください。

AI in Action 2024

2,000の組織を対象に、AIへの取り組みについて調査を行い、何が機能し、何が機能していないのか、どうすれば前進できるのかを明らかにしました。

教師あり学習モデル

サポート・ベクトル・マシンや確率的分類器などの教師あり学習アプローチを調査します。

生成AIを試してみる

ハンズオン・ラボ、コース、指導付きプロジェクト、トライアルなどで、基本的な概念を学び、スキルを身につけていただけます。

適切な基盤モデルを選ぶ方法

ユースケースに最適なAI基盤モデルを選択する方法について説明します。

脚注

¹Douglas C. Montgomery、Elizabeth A. Peck、G. Geoffrey Vining著、 「Introduction to Linear Regression Analysis」、出版社：John Wiley & Sons、2012年。

²Max Kuhn、Kjell Johnson著、 「Applied Predictive Modeling」、出版社：Springer、2016年。Ludwig Fahrmeir、Thomas Kneib、Stefan Lang、Brian D. Marx著、 「Regression: Models, Methods and Applications」、第2版、出版社：Springer、2021年。

³Wessel N. van Wieringen著、「Lecture notes on ridge regression」、2023年、 https://arxiv.org/pdf/1509.09169.pdf

⁴A. K. Md. Ehsanes Saleh、Mohammad Arashi、B. M. Golam Kibria著、 「Theory of Ridge Regression Estimation with Applications」、出版社：Wiley、2019年。

⁵Ludwig Fahrmeir、Thomas Kneib、Stefan Lang、Brian D. Marx著、 「Regression: Models, Methods and Applications」、第2版、出版社：Springer、2021年。

⁶Max Kuhn、Kjell Johnson著、 「Applied Predictive Modeling」、出版社：Springer、2016年。

⁷A. K. Md. Ehsanes Saleh、Mohammad Arashi、Resve A. Saleh、Mina Norouzirad著、 「Rank-Based Methods for Shrinkage and Selection: With Application to Machine Learning」、出版社：Wiley、2022年。

⁸Douglas C. Montgomery、Elizabeth A. Peck、G. Geoffrey Vining著、 「Introduction to Linear Regression Analysis」、出版社：John Wiley & Sons、2012年。

⁹Max Kuhn、Kjell Johnson著、 「Applied Predictive Modeling」、出版社：Springer、2016年。

¹⁰Ludwig Fahrmeir、Thomas Kneib、Stefan Lang、Brian D. Marx著、 「Regression: Models, Methods and Applications」、第2版、出版社：Springer、2021年。

¹¹Hui Zou、Trevor Hastie著、「Regularization and Variable Selection via the Elastic Net」、Journal of the Royal Statistical Society、Vol. 67、No. 2、2005年、301～320ページ、 https://academic.oup.com/jrsssb/article/67/2/301/7109482

¹²Ludwig Fahrmeir、Thomas Kneib、Stefan Lang、Brian D. Marx著、 「Regression: Models, Methods and Applications」、第2版、出版社：Springer、2021年。

¹³Max Kuhn、Kjell Johnson著、 「Applied Predictive Modeling」、出版社：Springer、2016年。

¹⁴Gianluigi Pillonetto、Tianshi Chen、Alessandro Chiuso、Giuseppe De Nicolao、Lennart Ljung著、 「Regularized System Identification: Learning Dynamic Models from Data」、出版社：Springer、2022年。

¹⁵Arthur E. Hoerl、Robert W. Kennard著、「Ridge Regression: Biased Estimation for Nonorthogonal Problems」、 Technometrics、Vol. 12、No. 1、1970年2月、55～67ページ、 https://www.tandfonline.com/doi/abs/10.1080/00401706.2020.1791254

¹⁶Wessel N. van Wieringen著、リッジ回帰に関する講義ノート、2023年、 https://arxiv.org/pdf/1509.09169.pdf

¹⁷Ludwig Fahrmeir、Thomas Kneib、Stefan Lang、Brian D. Marx著、 「Regression: Models, Methods and Applications」、第2版、出版社：Springer、2021年。

¹⁸Yichao Wu著、「Can’t Ridge Regression Perform Variable Selection?」 「Technometrics」誌、Vol. 63、No. 2、2021年、263～271ページ、 https://www.tandfonline.com/doi/abs/10.1080/00401706.2020.1791254

¹⁹Danielle C. Tucker、Yichao Wu、Hans-Georg Müller著、「Variable Selection for Global Fréchet Regression」、 Journal of the American Statistical Association、2021年、 https://www.tandfonline.com/doi/abs/10.1080/01621459.2021.1969240

リッジ回帰とは

2023年11月21日

共同執筆者

Jacob Murel Ph.D.

Eda Kavlakoglu

リッジ回帰とは

問題：多重共線性

リッジ回帰のしくみ：正則化アルゴリズム

リッジ回帰とラッソ回帰

その他の回帰正則化手法

The DX Leaders

機械学習におけるリッジ回帰

モデルの複雑さ

バイアスと分散のトレードオフ

ユースケースの例

最近の研究

IBMお客様事例

参考情報

関連ソリューション

脚注