Lasso回帰とは

2024年1月18日

Lasso回帰とは、ペナルティを適用することで過剰適合を防ぎ統計モデルの精度を高める正規化技法です。

Lasso回帰（L1正規化としても知られる）は、線形回帰モデルの正規化の一形態です。正規化とは、トレーニングデータの過剰適合による誤差を減らすための統計的手法です。このアプローチを次の式に反映します。

w-hat = argmin_w MSE(W ) + ||w||₁

Lasso技法の背後にある概念は、1986年にSantosaとSymesが発表した地球物理学の研究論文（ibm.com外部へのリンク）にさかのぼります¹。この論文ではL1ペナルティが係数に使用されていました。ところが1996年、統計学者Robert Tibshiraniが「lasso」という用語を独自に開発し普及させたのです²（ibm.com外部へのリンク）。これはBreimanのnonnegative garroteについての研究³（ibm.com外部へのリンク）に基づいています。

Lassoは、Least Absolute Shrinkage and Selection Operatorの略です。機械学習で高次元データを扱うのによく使用されます。その応用での自動特徴選択がしやすくなるためです。これは、残差平方和（RSS）にペナルティ項を追加し、これに正規化パラメーター（λ（ラムダ））を乗算することによって行われます。この正規化パラメーターで、正規化が適用される量を制御します。λの値を大きくするとペナルティも大きくなり、係数が縮小されてゼロに向かっていきます。そうすると、モデルのいくつかの特徴の重要性が大幅に低下（あるいは完全に消滅）し、その結果、自動特徴選択が行われます。逆に、λの値を小さくするとペナルティの影響も小さくなり、モデル内に保持される特徴は増えます。

このペナルティにより、モデル内ではスパース性が促進され、データセット内では多重共線性や過剰適合の問題が回避されます。多重共線性は、2つ以上の独立変数が互いに高い相関関係がある場合に発生し、因果モデリングで問題となる可能性があります。過剰適合モデルでは、新しいデータが十分に一般化できないので、その価値はことごとく低下します。回帰係数を下げてゼロにするLasso回帰なら、独立変数はモデルから効果的に排除され、こうした潜在的な問題がモデリングプロセスの中で起きなくなります。モデルのスパース性により、リッジ回帰（L2正規化とも呼ばれる）のような他の正規化技法と比較して、モデルの解釈可能性も向上します。

ちなみに、この記事では線形回帰モデルの正規化に焦点を当てていますが、Lasso回帰がロジスティック回帰にも適用できる点は注目に値します。

バイアスと分散のトレードオフ

バイアスとバリアンスのトレードオフは、予測モデルのよく知られた特性です。このコンテキストでは、バイアスで予測値と実測値との間の平均の差を測定し、バリアンスで所与のモデルの実現を変えてみた場合の予測の差を測定します。バイアスが大きくなると、トレーニング・データ・セットにおけるモデルの予測の精度が低下します。バリアンスが大きくなると、モデルの他のデータ・セットでの予測精度は低くなります。したがって、バイアスとバリアンスでは、それぞれトレーニング・セットとテスト・セットでのモデルの精度が測定されます。バイアスとバリアンスの両方を同時に低減することは必ずしも実現可能ではありません。よって、Lasso回帰などの正規化技法が必要なのです。

Lasso回帰では、ハイパーパラメーター・ラムダ（λ）（L1ペナルティとしても知られる）により、結果として得られる係数のバイアスとバリアンスのトレードオフのバランスを取ります。λが大きくなると、バイアスは大きくなり、バリアンスは小さくなるので、パラメーターが少なく済む単純なモデルになります。逆に、λが小さくなると、バリアンスは大きくなり、パラメーターが多くなる複雑なモデルになります。λが0の場合、OLS関数の結果は1、つまり、正規化が行われない標準線形回帰モデルとなります。

Lasso回帰の仕組み

このセクションでは、Lasso回帰の適用方法の概要を説明し、データサイエンスでの一般的なユースケースを取り上げます。

探索的データ分析を行う

線形回帰アルゴリズムをデータ・セットに適用する前に、データを探索し、存在しうる潜在的問題を把握します。次のような場合について把握しておくことが重要です。

データの欠落がある
特徴の数が多い
連続変数の分布が平均を中心とし標準偏差が同等である
予測変数で相互に相関するものがある

こうしたことを理解することは重要です。高次元で変数の相関があるデータ・セットはオーバーフィッティングになる傾向があるためです。平均が中心でなく標準偏差が1のデータについても、モデルに大きく影響するのを抑えるための再スケーリングが必要です。特徴量が再スケーリングされていないと、コスト関数に悪影響が及び、そうするとベータ係数に影響します。平たく言えば、特徴量がスケーリングされていないと、単位の違いに起因して、Lasso回帰で意図しないペナルティが適用されるわけです。

データを分割して連続予測子を再スケーリングする

探索的データ分析を行ったら、データをトレーニング・セットとテスト・セットとに分割します。データを分割してから、データには必要に応じて再スケーリングが適用されます。Zスコアスケーリングは特徴量スケーリングの一般的なアプローチであり、特徴量を再スケーリングして標準偏差1と平均0を共有させるものです。

Lassoモデルをフィッティングしてλの値を選択する

Lasso回帰モデルを学習データにフィッティングしてλの値を選択する目的は、平均二乗誤差（MSE）を最小にすることです。平均二乗誤差（MSE）は、最適なλ値を決定する助けとなります。MSEは、従属変数の予測値と実測値との間の差異の平均を測定するための手段です。Lasso回帰では、平均二乗誤差（MSE）を最小にする一方で、相反する要素であるバイアスとバリアンスのバランスを取ることで、最も正確な予測モデルを構築します。そこに到達するには、パラメーターλで乗算した係数の絶対値の合計に等しい残差平方和（RSS）に、ペナルティ項を加算します。

λの最適化を交差検証で行う

λの最適値は、交差検証技法（k-分割交差検証など）で決定します。このアプローチでは、平均二乗誤差などのパフォーマンス・メトリクスを最小にするλ値を見つけます。

前述のとおり、λ値が大きいほど正規化が適用されます。λが大きくなると、モデルのバイアスも大きくなり、バリアンスは小さくなります。これは、λが大きくなるにつれて、縮小されゼロになっていく係数𝛽が増えるためです。

モデルのパフォーマンスを評価する

一般的に、モデルのパフォーマンスを把握するため、いくつかの値、具体的にはR²とMSEを出力することがあります。R²は、従属変数（または応答変数）のバリアンスの割合を示すものであり、独立変数で説明されます。MSE値とさまざまなλ値とを比較すると、モデルが大域最小値に合わせて効果的に最適化されているかどうかが確認できます。

Lasso回帰はどのような場合に使用するか

Lasso回帰は問題の予測に理想的です。自動変数選択を実行する機能があるので、モデルが単純になり、予測精度が高まります。とはいえ、Lasso回帰で係数をゼロに向かって小さくすることで生じるバイアスの量によっては、リッジ回帰の方がLasso回帰よりも優れたパフォーマンスを発揮することがあります。また、モデルに含める特徴は任意に選択されるため、データの中の相関特徴による制約があります。

一般的な応用

こうしたシナリオでは、Lasso回帰が理想的となります。

高次元データ・セットの扱い

データ・セットは予測変数の数が観測値の数よりはるかに大きいとき、高次元とみなされます。ラッソ回帰は、重みパラメーターをゼロに縮小してあまり重要でない特徴をモデルから排除することで、データ・セット内の次元を削減するのに役立ちます。

次元削減の詳細はこちら

特徴選択の自動化

L1ペナルティーによって取り入れられたバイアスが、係数を人為的にゼロに近づけます。一部の変数は縮小されてゼロになり、予測に最も重要な変数のサブセットがモデルに残ります。

ラッソ回帰の制限

ラッソ回帰は、モデル解釈の可能性に悪影響を与えることなくある程度の多重共線性を処理できますが、重度の多重共線性を克服することはできません⁴。共変量が高い相関関係にある場合、ラッソ回帰では特徴の1つを任意にモデルから除外します。エラスティックネットの正則化は、このような状況においてよい選択肢となります。

PythonやRによる回帰の実装

PythonとRはどちらもデータサイエンスで広く使用されています。Pythonは柔軟性があり、幅広いタスクを処理できます。一方Rは、統計の計算とデータの可視化に特化して設計されており、プロットやチャート用の豊富なグラフィック・オプションも含まれています。

ラッソ回帰はPythonで実装できます。その際、この目的のためにラッソ・クラスを提供するsklearn（ibm.com外部へのリンク）などのライブラリーを使用します。Rが優れた選択肢である理由は、glmnetパッケージが、λを選択するための効率的なクロス検証に利用できるとともに、αをさまざまな値に設定できる柔軟性を持ち合わせているためです。Rは、回帰モデルの理解と解釈において重要な役割を果たす可視化機能にも優れています。