ビジネスを飛躍させるのは、あなたの仕事を知っている AI。
国内外の事例、新たなAIの取り組みをご紹介
リッジ回帰は、統計的な正則化手法です。機械学習モデルにおけるトレーニングデータの過剰適合を修正します。
標準的な多変量線形回帰は次のとおりです。
ここで、Yは予測値(従属変数)、Xは任意の予測変数(独立変数)、Bはその独立変数に関連付けられた回帰係数、X0は独立変数がゼロに等しい場合の従属変数の値(Y切片とも呼ばれます)。係数が従属変数と特定の独立変数の間の関係をどのようにマークするかに注目してください。
多重共線性は、2つ以上の予測変数がほぼ線形の関係にあることを示します。Montgomeryらは1つの例を挙げています。長距離配送には常に多数の商品が含まれ、短距離配送には常に少量の在庫が含まれるという、サプライチェーンの配送データ・セットの分析を考えてください。この場合、図1に示すように、配送距離と商品数量は線形相関があります。これにより、単一の予測モデルでこれらを独立変数として使用する際、問題が発生します。
これは多重共線性の一例にすぎず、その修正は比較的単純で、より多様なデータ(例えば、大規模なインベントリーを伴う近距離配達のデータなど)を収集するというものです。ただし、調査対象のデータそのものに多重共線性がある場合などは、より多くのデータを収集することが必ずしも有効な解決策になるとは限りません。多重共線性を修正するための他のオプションには、サンプル・サイズを増やすこと、独立変数の数を減らすこと、あるいは単に別のモデルを利用することが挙げられます。ただし、このような修正によって多重共線性が常に排除できるとは限らず、多重共線性に対処するためにモデルを正則化する別の方法として、リッジ回帰があります。1
最初に予測モデルを開発する際、学習データにおいて係数が明示的に示されていないため、係数を計算しなければならないことがよくあります。係数を推定するには、最小二乗法(OLS)マトリックス係数推定量を使用できます。
この式の演算を理解するには、行列表記法に精通している必要があります。この式は、与えられたデータセットに最適な直線を見つけるため、各独立変数の係数を計算し、それらが最小の残差平方和(または二乗誤差の和)を実現することを目的としています。2
残差平方和(RSS)は、線形回帰モデルが学習データとどの程度一致するかを測定します。これは次の公式で表されます。
この式は、トレーニングデータ内の実測値のモデル予測精度を測定します。RSS=0の場合、モデルは従属変数を完全に予測します。ただし、スコアがゼロであることが常に望ましいとは限りません。特にトレーニング・データセットが小さい場合、トレーニング・データを過剰適合していることを示すことがあるためです。スコアがゼロになる原因として、多重共線性が1つの可能性として挙げられるということです。
係数の推定値が高いと、多くの場合、過剰適合の兆候といえます。32つ以上の変数が高い線形相関を共有している場合、OLSは誤って高い値の係数を返すことがあります。1つ以上の係数が高すぎる場合、入力データの小さな変更であっても、モデルの出力結果は影響を受けやすくなります。言い換えれば、モデルは特定のトレーニング・セットを過剰適合しており、新しいテスト・セットに対し精度の良い予測ができないことを意味します。このようなモデルは不安定であると見なされます。4
リッジ回帰は、潜在的に相関する予測変数を考慮に入れた係数を計算することでOLSを修正します。具体的には、リッジ回帰は、正則化項(しばしばペナルティー項と呼ばれる)をRSS関数に導入することによって、高い値を示す係数を補正します。このペナルティー項は、モデルの係数の二乗和です。5これは次の公式で表されます。
L2ペナルティー項はRSS関数の終わりとして挿入され、その結果、リッジ回帰推定量という新しい式が生成されます。式の中で、モデルに対する影響はハイパーパラメーターのラムダ(λ)によって制御されます。
係数は、特定の予測子(つまり、独立変数)に対する予測値(つまり、従属変数)に対する影響を示すことに注意してください。RSS式に追加されると、L2ペナルティー項はすべての係数値を減らすことで、特に値の高い係数に対処します。統計では、これを係数縮小と呼びます。したがって、上記のリッジ推定量は、特定のモデルのRSSを低減する新しい回帰係数を計算します。これにより、すべての予測変数の影響が最小限に抑えられ、トレーニング・データへの過剰適合が低減されます。 6
リッジ回帰では、すべての係数が同じ値だけ縮小されるわけではないことに注意してください。むしろ、係数は初期サイズに比例して縮小されます。λが増加すると、高い値の係数は低い値の係数よりも大きい割合で縮小されます。7したがって、高い値の係数は、低い値の係数よりも大きなペナルティーが課せられます。
L2ペナルティーはゼロに向かって係数が縮小しますが、絶対ゼロにはならないことに注意してください。リッジ回帰では、モデルの特徴量の重みは無視できるほど小さくなることはあっても、ゼロになることは決してありません。係数をゼロに減らすと、対になる予測変数をモデルから事実上、削除することになります。これは特徴選択と呼ばれ、多重共線性を補正する別の方法です。8リッジ回帰では回帰係数をゼロにしないため、特徴選択を行いません。9これはリッジ回帰の欠点としてよく挙げられます。さらに、よく言及される別の欠点として、深刻な多重共線性に直面した場合、リッジ回帰では予測変数の効果を分離できないことが挙げられます。10
ラッソ回帰(L1正則化とも呼ばれる)は、線形回帰における正則化手法の1つです。L1正則化は、係数をゼロに減らすことで機能し、本質的に独立変数をモデルから除外します。つまり、方法は異なるものの、ラッソ回帰とリッジ回帰はモデルの複雑さを軽減します。ラッソ回帰は、出力に影響を与える独立変数の数を減らします。リッジ回帰は、各独立変数が出力に与える重みを減らします。
エラスティックネットは、正則化の手段の1つです。リッジ回帰は二乗誤差の和から正則化パラメーターを取得し、ラッソ回帰は誤差の絶対値の和から独自の正規化パラメーターを取得しますが、エラスティックネットは双方の回帰の正則化パラメーターをRSS損失関数に組み込みます。11
主成分回帰(PCR)もまた、正則化手順として利用できます。PCRは多重共線性を解決できますが、リッジ回帰やラッソ回帰のようにRSS関数にペナルティーを課すわけではありません。むしろPCRは、相関のある予測変数の線形結合を生成し、それによって新たな最小二乗モデルを作成します。12
機械学習では、モデルの複雑が原因で生じる過剰適合を、リッジ回帰を用いて軽減できます。モデルが複雑になる原因として以下が考えられます。
単純なモデルが、複雑なモデルよりも一概に優れたパフォーマンスを発揮するとは限りません。ただし、モデルの複雑度が高いと、トレーニング・セット以外の新しいデータに対する汎化能力が発揮できないことがあります。
リッジ回帰では特徴量の選択を行わないため、特徴量の排除によってモデルの複雑さを軽減することはできません。ただし、1つ以上の特徴がモデルの出力に大きく影響する場合、リッジ回帰では、L2ペナルティー項に従ってモデル全体の高い特徴の重み(つまり、係数)が縮小される可能性があります。これにより、モデルの複雑さが軽減され、モデルの予測が1つ以上の特定の特徴量への過度の依存を減らします。
機械学習の用語では、リッジ回帰は、モデルの分散を小さくするためにモデルに偏りを追加することに相当します。偏りと分散のトレードオフは、機械学習においてよく知られた問題です。しかし、偏りと分散のトレードオフを理解するためには、まず機械学習の研究における「偏り」と「分散」のそれぞれの意味を知る必要があります。
簡単に言うと、偏りは予測値と実測値の間の平均の差を測定します。分散は、あるモデルのさまざまな実現値における予測値間の差を測定します。バイアスが大きくなると、トレーニング・データ・セットにおけるモデルの予測の精度が低下します。バリアンスが大きくなると、モデルの他のデータ・セットでの予測精度は低くなります。したがって、バイアスとバリアンスでは、それぞれトレーニング・セットとテスト・セットでのモデルの精度が測定されます。言うまでもなく、開発者はモデルの偏りと差異を軽減したいと考えています。ですが、双方を同時に削減することは常に実現できるとは限らないため、リッジ回帰などの正則化手法が必要になります。
前述したように、リッジ回帰による正則化は、分散を減少させるために偏りを追加します。言い換えれば、リッジ回帰によって正則化されたモデルは、トレーニング・データでの予測精度は低くなります(偏りが大きい)が、テスト・データでの予測精度は高くなります(分散が小さい)。これを偏りと分散のトレードオフといます。リッジ回帰を通じて、ユーザーはあるモデルの汎化能力を高める(分散の小さい)ために、トレーニング精度の低下(偏りが大きい)をどの程度許容するか判断します。13このように、偏りを増やすと、モデル全体のパフォーマンスが向上します。
L2ペナルティーの強さ、つまりモデルの偏りと分散のトレードオフは、リッジ推定量の損失関数式における値λによって決定されます。λがゼロの場合、通常の最小二乗関数となります。これにより、正則化されていない、標準的な線形回帰モデルが作成されます。対照的に、λの値が大きいほど正則化が強いことを意味します。λが大きくなると、モデルの偏りも大きくなり、分散は小さくなります。したがって、λがゼロに等しい場合、モデルは学習データを過剰適合しますが、λの値が大きすぎる場合、モデルはすべてのデータに対して過小適合します。14
平均二乗誤差(MSE)は、適切なλ値を決定する際に有用です。MSEはRSSと密接に関連しており、予測値と実測値の平均的な差を測定する手段です。モデルのMSEの値が低いほど、予測の精度が高くなります。しかし、λの値が高くなるとMSEの値も高くなります。それにもかかわらず、リッジ回帰で得られるMSEがOLSで得られるMSEよりも小さくなるような、ゼロより大きいλの値が常に存在すると主張されています。15適切なλ値を推定する1つの方法は、図2に示すように、MSEを増加させないλの最高値を見つけることです。追加のクロス検証技術により、ユーザーはモデルの調整に最適なλ値を選択できます。16
計算生物学や遺伝研究では、特に遺伝発現を調査する場合、予測変数の数がデータ・セットのサンプルサイズを大幅に上回るモデルを扱うことがよくあります。リッジ回帰は、これらの多数の特徴量の重みの総和を軽減し、モデルの予測範囲を圧縮することによって、このようなモデルの複雑さに対処する1つの方法となります。
住宅の最終売却価格を決定する予測変数は無数にあり(ベッドルームやバスルームの数など)、その多くは相関関係にあります。相関性の高い特徴量があると、回帰係数の値が高くなり、トレーニングデータに過剰適合が生じます。リッジ回帰は、モデルの最終的な予測値における特徴量の重みの総和を減らすことによって、モデルの複雑さを補正します。
ここで挙げた例は、データサイエンスという広い分野における2つの例に過ぎません。しかし、これらの2つの例が示すように、データ・サンプルよりもモデルの特徴量が多いか、モデルが2つ以上の相関の高い特徴量を持つ場合に、リッジ回帰を最も効果的に使うことができます。
最近の研究では、特徴選択を行う目的で、リッジ回帰の派生形が調査されています。18変形リッジ回帰の形式では、係数ごとに異なる正則化パラメーターを利用します。このようにして、特徴量の重みを個別にペナルティーを課すことができるため、リッジ回帰を用いて特徴選択を実現できる可能性があります。19
IBM Graniteは、ビジネス向けにカスタマイズされ、AIアプリケーションの拡張に合わせて最適化された、オープンで高性能、かつ信頼性の高いAIモデル・ファミリーです。言語、コード、時系列、ガードレールのオプションをご覧ください。
2,000の組織を対象に、AIへの取り組みについて調査を行い、何が機能し、何が機能していないのか、どうすれば前進できるのかを明らかにしました。
サポート・ベクトル・マシンや確率的分類器などの教師あり学習アプローチを調査します。
ハンズオン・ラボ、コース、指導付きプロジェクト、トライアルなどで、基本的な概念を学び、スキルを身につけていただけます。
AI開発者向けの次世代エンタープライズ・スタジオであるIBM watsonx.aiを使用して、生成AI、基盤モデル、機械学習機能をトレーニング、検証、チューニング、導入しましょう。わずかなデータとわずかな時間でAIアプリケーションを構築できます。
業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。
AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。
1 Douglas C. Montgomery、Elizabeth A. Peck、G. Geoffrey Vining著、 「Introduction to Linear Regression Analysis」、出版社:John Wiley & Sons、2012年。
2 Max Kuhn、Kjell Johnson著、 「Applied Predictive Modeling」、出版社:Springer、2016年。Ludwig Fahrmeir、Thomas Kneib、Stefan Lang、Brian D. Marx著、 「Regression: Models, Methods and Applications」、第2版 、出版社:Springer、2021年。
3 Wessel N. van Wieringen著、「Lecture notes on ridge regression」、2023年、 https://arxiv.org/pdf/1509.09169.pdf
4 A. K. Md. Ehsanes Saleh、Mohammad Arashi、B. M. Golam Kibria著、 「Theory of Ridge Regression Estimation with Applications」、出版社:Wiley、2019年。
5 Ludwig Fahrmeir、Thomas Kneib、Stefan Lang、Brian D. Marx著、 「Regression: Models, Methods and Applications」、第2版 、出版社:Springer、2021年。
6 Max Kuhn、Kjell Johnson著、 「Applied Predictive Modeling」、出版社:Springer、2016年。
7 A. K. Md. Ehsanes Saleh、Mohammad Arashi、Resve A. Saleh、Mina Norouzirad著、 「Rank-Based Methods for Shrinkage and Selection: With Application to Machine Learning」、出版社:Wiley、2022年。
8 Douglas C. Montgomery、Elizabeth A. Peck、G. Geoffrey Vining著、 「Introduction to Linear Regression Analysis」、出版社:John Wiley & Sons、2012年。
9 Max Kuhn、Kjell Johnson著、 「Applied Predictive Modeling」、出版社:Springer、2016年。
10 Ludwig Fahrmeir、Thomas Kneib、Stefan Lang、Brian D. Marx著、 「Regression: Models, Methods and Applications」、第2版 、出版社:Springer、2021年。
11 Hui Zou、Trevor Hastie著、「Regularization and Variable Selection via the Elastic Net」、Journal of the Royal Statistical Society、Vol. 67、No. 2、2005年、301~320ページ、 https://academic.oup.com/jrsssb/article/67/2/301/7109482
12 Ludwig Fahrmeir、Thomas Kneib、Stefan Lang、Brian D. Marx著、 「Regression: Models, Methods and Applications」、第2版 、出版社:Springer、2021年。
13 Max Kuhn、Kjell Johnson著、 「Applied Predictive Modeling」、出版社:Springer、2016年。
14 Gianluigi Pillonetto、Tianshi Chen、Alessandro Chiuso、Giuseppe De Nicolao、Lennart Ljung著、 「Regularized System Identification: Learning Dynamic Models from Data」、出版社:Springer、2022年。
15 Arthur E. Hoerl、Robert W. Kennard著、「Ridge Regression: Biased Estimation for Nonorthogonal Problems」、 Technometrics、Vol. 12、No. 1、1970年2月、55~67ページ、 https://www.tandfonline.com/doi/abs/10.1080/00401706.2020.1791254
16 Wessel N. van Wieringen著、リッジ回帰に関する講義ノート、2023年、 https://arxiv.org/pdf/1509.09169.pdf
17 Ludwig Fahrmeir、Thomas Kneib、Stefan Lang、Brian D. Marx著、 「Regression: Models, Methods and Applications」、第2版 、出版社:Springer、2021年。
18 Yichao Wu著、「Can’t Ridge Regression Perform Variable Selection?」 「Technometrics」誌、Vol. 63、No. 2、2021年、263~271ページ、 https://www.tandfonline.com/doi/abs/10.1080/00401706.2020.1791254
19 Danielle C. Tucker、Yichao Wu、Hans-Georg Müller著、「Variable Selection for Global Fréchet Regression」、 Journal of the American Statistical Association、2021年、 https://www.tandfonline.com/doi/abs/10.1080/01621459.2021.1969240
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com