バギングは、ノイズの多いデータ・セット内のバリアンスを抑えるために一般的に使用されているアンサンブル学習の手法で、ブートストラップ・アグリゲーションとも呼ばれます。
バギングでは、トレーニング・セット内のランダムなサンプル・データを選択し、元に戻します。つまり、個々のデータ・ポイントは複数回選択可能です。いくつかのデータ・サンプルが生成された後、これらの弱いモデルは独立してトレーニングされます。タスクの種類(例えば回帰や分類など)に応じて、それらの予測の平均値や多数決を基に、より精度の高い推定値を算出します。
なお、ランダム・フォレスト・アルゴリズムはバギング手法を拡張したものと考えられています。バギングと、特徴のランダム性の両方を活用して、複数の決定木を集めた相関性のないフォレストを作成します。
アンサンブル学習は、1人の専門家の判断よりも大人数による意思決定の方が一般に優れていることを示唆する「群衆の叡智」の考え方に基づいています。アンサンブル学習はこの考えに従い、ベースとなる複数の学習器(モデル)を組み合わせたグループ(アンサンブル)を協調させることで、最終的な予測の精度を高めます。
ベース学習器や弱学習器と呼ばれる単一のモデルは、単体では高バリアンスまたは高バイアスとなってうまく機能しない場合があります。しかし、複数の弱学習器を組み合わせると、バイアスやバリアンスが抑えられ、より強力な学習器が得られることから、モデルの性能が向上します。
アンサンブル学習の手法は、説明のために決定木がよく用いられます。決定木が剪定されていない場合には、このアルゴリズムは過学習を起こしやすく、高バリアンスかつ低バイアスの傾向を示します。逆に、例えば1レベルの決定木である決定株のように、決定木が非常に小さい場合には、学習不足につながり、低バリアンスかつ高バイアスとなる可能性があります。
トレーニング・セットに対する過学習または学習不足が生じたアルゴリズムは、新しいデータ・セットに対して適切に汎用化できません。この問題に対処し、新しいデータ・セットに対するモデルの汎用化を可能にするために、アンサンブル学習の手法を利用します。決定木は高バリアンスまたは高バイアスとなる場合があります。しかし、バイアスとバリアンスのトレードオフにおける「スイート・スポット」を見つけるためにアンサンブル学習を活用するモデリング手法は、決定木だけではないという点に留意する必要があります。
バギングとブースティングは、アンサンブル学習の主要な2つの手法です。こちらの研究(ibm.com外部へのリンク)が示すように、この2つの学習手法の主な違いはトレーニング方法にあります。
バギングでは、弱学習器のトレーニングを並列的に実行します。一方ブースティングでは、直列的に学習を実行します。つまり、一連のモデルを構築する中で、新しいモデルの学習を反復するごとに、前のモデルで誤分類されたデータに重みを加えます。
この重みの再配分は、性能向上の焦点となるパラメーターをアルゴリズムが特定するうえで役立ちます。このタイプの最初のアルゴリズムの1つであるAdaBoostは、最もよく使用されるブースティング・アルゴリズムの1つとなっています。AdaBoostは「アダプティブ・ブースティング・アルゴリズム」の略です。その他のブースティング・アルゴリズムには、XGBoost、GradientBoost、BrownBoostなどがあります。
バギングとブースティングの違いとしては、使用する状況が異なるという点もあります。例えば、バギングの手法は通常、高バリアンスで低バイアスの弱学習器に対して用います。一方ブースティングの手法は、低バリアンスで高バイアスの場合に用います。
貴社のシステムを接続して統合し、AI用のインフラストラクチャーを準備します。
登録してアプリのモダナイゼーションに関するガイドを受け取る
バギング・アルゴリズムは1996年にLeo Breiman氏(ibm.com外部へのリンク)が提唱しました。このアルゴリズムには以下の3つの基本手順があります。
分類や回帰の問題にバギングの手法を利用する場合、いくつかの重要なメリットと課題があります。バギングの主要なメリットは次のとおりです。
バギングの主な課題は次のとおりです。
バギングの手法はさまざまな業界で利用されており、現実世界での価値という面からも、GRAMMY Debates with Watsonなどの興味深い視点という面からも、洞察が得られます。主なユースケースは次のとおりです。