アップサンプリングとは| IBM

公開日：2024年4月29日
寄稿者： Jacob Murel Ph.D.

アップサンプリングにより、データ・セット内のデータ・サンプルの数が増加します。そうすることで、不均衡なデータを修正し、モデルのパフォーマンスを向上させることを目的としています。

アップサンプリング（オーバーサンプリングとも呼ばれる）は、データを追加することでデータ・セット内のクラスの不均衡に対処する、データ処理および最適化の手法です。アップサンプリングでは、すべてのクラスのサイズが同じになるまで、少数クラスの元のサンプルを使用してデータを追加します。Python scikit-learnとMatlabには、アップサンプリング手法を実装するための組み込み関数が含まれています。

データサイエンスのアップサンプリングは、デジタル信号処理（DSP）のアップサンプリングとよく間違われます。この2つは本質は似ていますが、別物です。データサイエンスにおけるアップサンプリングと同様に、DSPのアップサンプリングでは、より高いサンプリング・レートを補間することで、入力信号（特に離散時間信号）から周波数領域でより多くのサンプルを人為的に作成します。これらの新しいサンプルは、元の信号にゼロを挿入し、補間のためにローパス・フィルターを使用することによって生成されます。これは、データ・バランシングでデータがアップサンプリングされる方法とは異なります。

データ・バランシングのためのアップサンプリングも、画像処理におけるアップサンプリングとは異なります。後者の場合、計算を高速化するために、高解像度の画像についてはまず解像度を下げ（ピクセルを削除する）、その後、畳み込みによって画像を元のサイズに戻します（ピクセルを追加する）。

企業の人工知能を拡大するためにAIガバナンスがビジネス上欠かせない理由

特にAIガバナンスやリスク管理ソリューションの欠如など、AI導入の障壁について学びましょう。

関連コンテンツ

基盤モデルについてのガイドに登録する

アップサンプリングを使用する理由

アップサンプリングは、データ・セット内の不均衡に対処する効果的な方法です。不均衡なデータ・セットは、1つのクラスが実際の母集団と比較して大幅に過小評価され、意図しないバイアスが生じるデータ・セットと定義されます。例えば、あるモデルが、犬と猫の画像を分類するようにトレーニングされたとします。そして、使用されるデータ・セットが90%は猫、10%は犬で構成されているとします。このシナリオでは猫の画像が過剰であり、すべての回で猫を予測する分類器があるとして、猫の分類に関しては精度は90%になりますが、犬の分類に関しては精度は0%になります。このケースでは不均衡なデータ・セットにより、分類器は多数派クラスの精度を優先し、少数派クラスを犠牲にすることになります。同じ問題は、マルチクラス・データ・セットでも発生する可能性があります¹。

アップサンプリングのプロセスにより、不均衡なデータ・セットによる問題が解消されます。元のデータ・セットの少数派クラスの特性から合成されたポイントをデータ・セットに取り込みます。これにより、データ・セットにすべてのクラスにわたって等しい比率のポイントが含まれるようになるまで、過小評価されている少数派クラスのサンプル数を効果的に増やし、データ・セットのバランスが取れるようになります。

各クラスのデータ・ポイントの数をプロットするだけで不均衡を確認できますが、それがモデルに大きな影響を与えるかどうかはわかりません。幸いなことに、パフォーマンス・メトリクスを使用して、アップサンプリング手法がクラスの不均衡をどの程度適切に修正できるかを測定できます。これらのメトリクスのほとんどはバイナリー分類用であり、正と負の2つのクラスしか存在しません。通常、正のクラスは少数派クラスであり、負のクラスは多数派クラスです。一般的な2つのメトリクスは、受信者操作特性（ROC）曲線と精度-再現率曲線です¹。

アップサンプリングのメリットとデメリット

メリット

情報損失なし：多数派クラスからデータ・ポイントを削除するダウンサンプリングとは異なり、アップサンプリングでは新しいデータ・ポイントが生成され、情報の損失が回避されます。
低コストでデータを増やす：観測によってしかデータを取得できない場合に、データ・セットのサイズをオンデマンドで増やすためにアップサンプリングは特に効果的であり、たいていは唯一の方法です。例えば、ある疾患は非常にまれであり、より多くの症例データを収集することができないという場合があります。

デメリット

過剰適合：アップサンプリングは、既存の少数派クラスのデータに基づいて新しいデータを作成するため、分類器がデータに過剰適合する可能性があります。アップサンプリングでは、既存のデータが現実を適切に捉えていることを前提としています。そうでない場合、分類器はうまく一般化できない可能性があります。
データのノイズ： アップサンプリングにより、データ内のノイズの量が増加し、分類器の信頼性とパフォーマンスが低下する可能性があります²。
計算の複雑さ：データ量が増えると、分類器のトレーニングはより計算コストが高くなり、クラウド・コンピューティングを使用する場合に問題になる可能性があります²。

アップサンプリング手法

ランダム・オーバーサンプリング

ランダム・オーバーサンプリングは、少数派クラスのサイズが多数派クラスと等しくなるまで、少数派クラス内のランダム・データ・ポイントを複製するプロセスです。

ランダム・オーバーサンプリングはブートストラッピングと、本質的には似ていますが異なります。ブートストラッピングは、すべてのクラスからリサンプリングするアンサンブル学習手法です。対照的に、ランダム・オーバーサンプリングでは、少数派のクラスからのみリサンプリングします。したがって、ランダム・オーバーサンプリングは、ブートストラッピングの特殊性の高い形式として理解できます。

ただし、その単純さにもかかわらず、ランダム・オーバーサンプリングには限界があります。ランダム・オーバーサンプリングは重複するデータ・ポイントを追加するだけなので、過剰適合になる可能性があります³。しかし、他の方法に比べて、実装が容易である、データに関する無理な想定をしない、アルゴリズムが単純であるため時間的コストが少ないなど、多くの利点があります^。2

SMOTE

SMOTE（Synthetic Minority Oversampling Technique）は、2002年に初めて提案されたアップサンプリング手法で、少数派クラスの既存のポイントから新しいデータ・ポイントを合成します⁴。これは以下のプロセスで構成されています²。

すべての少数派クラス・データ・ポイントのK個の最近傍を検索します。Kは通常は5です。
それぞれの少数派クラスのデータ・ポイントに対してステップ3～5を繰り返します。
データ・ポイントのK個の最近傍の1つを選びます。
特徴空間内のこれら2点を結ぶ線分上のランダムな点を選択して、新しい出力サンプルを生成します。この処理は補間と呼ばれます。
必要なアップサンプリングの量に応じて、別の最近傍を使用してステップ3と4を繰り返します。

SMOTEは、既存のデータを単純に複製するのではなく、これまでに見たことのない新しいデータをデータ・セットに追加することで、ランダム・オーバーサンプリングにおける過剰適合の問題に対処します。このため、一部の研究者は、SMOTEがランダム・オーバーサンプリングよりも優れたアップサンプリング手法であると考えています。

一方、SMOTEの人工的なデータ・ポイント生成は、データ・セットに余分なノイズを追加し、分類器をより不安定にする可能性があります¹。また、SMOTEからの合成ポイントとノイズは、現実を反映していない少数派クラスと多数派クラスの間に誤って重なり合うことになり、いわゆる過剰な一般化につながる可能性があります⁵。

Borderline SMOTE

人気のある拡張機能の1つであるBorderline SMOTEは、人工的なデータ・セットのノイズの問題に対処し、「難易度の高い」データ・ポイントを作成するために使用されます。「難易度の高い」データ・ポイントは、決定境界に近いデータ・ポイントであるため、分類が難しくなります。これらの難易度の高いポイントは、モデルの学習には役立つ度合いが高くなります²。

Borderline SMOTEは、多くの多数派クラスのポイントに近い少数派クラスのポイントを特定し、それらをDANGERセットに入れます。DANGERポイントは学習するのが「難しい」データ・ポイントです。これもまた、少数派クラスのポイントに囲まれたポイントに比べて分類が難しいためです。この選択プロセスでは、最近傍が多数派クラスのポイントのみであるポイントは除外され、これらのポイントはノイズとしてカウントされます。そこから、SMOTEアルゴリズムは、このDANGERセットを使用して通常どおり続行されます³。

ADASYN

ADASYN（Adaptive Synthetic Sampling Approach）は、モデルの学習の難易度が高いデータを生成するという点で、Borderline SMOTEに似ています。しかし、それはまた、少数派クラスのデータの分布を保持することも目的としています⁶。これは、まず、近傍の多数派クラスの例の数に基づいて、すべての少数派クラスのポイントの加重分布を作成することによって行われます。そこから、新しいデータを生成する際に、多数派クラスに近い少数派クラスのポイントがより頻繁に使用されます。

プロセスは次のようになります²。

データ・セット全体に対してKNNモデルを作成します。
各少数派クラスのポイントには、rで示される「硬度係数」が与えられます。これは、KNNの近傍の総数に対する多数派クラスのポイント数の比率です。
SMOTEと同様に、合成的に生成されたポイントは少数派データとその近傍データの間の線形補間ですが、生成されるポイントの数はポイントの硬度係数に比例します。これにより、少数派データが少ない領域ではより多くのポイントが生成され、より多く存在する領域では生成されるポイントは少なくなります。

データ変換／拡張

データ拡張では、データのバリエーションを作成することによって新しいデータを作成します。データ拡張は、さまざまな機械学習分野に応用されています。

データ拡張の最も基本的な形式では、データ・セットの生の入力の変換を扱います。例えば、コンピューター・ビジョンでは、画像拡張（トリミング、ぼかし、ミラーリングなど）を使用して、モデルが分類するためのより多くの画像を作成できます。同様に、データ拡張は、単語をその同義語に置き換えたり、意味的に同等の文を作成したりするなど、自然言語処理タスクでも使用できます。

研究者は、データ拡張により、類似のデータが低コストで追加されるため、コンピューター・ビジョンやNLPのタスクのモデル精度が効果的に向上することを発見しました。ただし、これらの手法を実行する前に、いくつかの注意事項に注目することが重要です。従来の幾何学的拡張の場合、変換を実行する前に変換の「安全性」を確認する必要があります。例えば、「9」の画像を回転させると、「6」に見え、意味が変わります⁷。

脚注

¹ Haobo HeおよびEdwardo Garcia著、『Learning from Imbalanced Data』、IEEE、2009年9月、https://ieeexplore.ieee.org/document/5128907（ibm.com外部へのリンク）。（1、2、10）

² Kumar AbishekおよびMounir Abdelaziz著、『Machine Learning for Imbalanced Data』、Packt、2023年11月、https://www.packtpub.com/product/machine-learning-for-imbalanced-data/9781801070836（ibm.com外部へのリンク）。（3、4、6、8、9、12、14-17）

³ Kumar AbishekおよびMounir Abdelaziz著、『Machine Learning for Imbalanced Data』、Packt、2023年11月、https://www.packtpub.com/product/machine-learning-for-imbalanced-data/9781801070836（ibm.com外部へのリンク）。Alberto Fernandez他著、『Learning from Imbalanced Data Sets』、2018年。

⁴ Nitesh Chawla他著、『SMOTE: Synthetic Minority Over-sampling Technique』、JAIR、2002年6月1日、https://www.jair.org/index.php/jair/article/view/10302（ibm.com外部へのリンク）。

⁵ Kumar AbishekおよびMounir Abdelaziz著、『Machine Learning for Imbalanced Data』、Packt、2023年11月。Haobo HeおよびEdwardo Garcia、『Learning from Imbalanced Data』、IEEE、2009年9月、https://ieeexplore.ieee.org/document/5128907（ibm.com外部へのリンク）。

⁶ Alberto Fernandez他著、『Learning from Imbalanced Data Sets』、Springer、2018年。

⁷ Connor ShortenおよびTaghi Khoshgoftaar著、『A survey on Image Data Augmentation for Deep Learning』、Springer、2019年7月6日、https://journalofbigdata.springeropen.com/articles/10.1186/s40537-019-0197-0（ibm.com外部へのリンク）。

⁸ Zhen Wei、Li Zhang、Lei Zhao著、『Minority prediction probability based oversampling technique for imbalanced learning』、Science Direct、2022年12月6日、https://www.sciencedirect.com/science/article/abs/pii/S0020025522014578?casa_token=TVVIEM3xTDEAAAAA:LbzQSgIvuYDWbDTBKWb4ON-CUiTUg0EUeoQf9q12IjLgXFk0NQagfh0bU3DMUSyHL_mjd_V890o（ibm.com外部へのリンク）。

⁹ Zeyu Teng他著、『Multi-label borderline oversampling technique』、ScienceDirect、2023年9月14日、https://www.sciencedirect.com/science/article/abs/pii/S0031320323006519?casa_token=NO8dLh60_vAAAAAA:AWPCvCP8PQG43DvkQFChZF2-3uzB1GJBBtgPURevWe_-aR0-WTbLqOSAsiwxulNAuh_4mIDZx-Y（ibm.com外部へのリンク）。

¹⁰ Justin EngelmannおよびStefan Lessmann著、『Conditional Wasserstein GAN-based oversampling of tabular data for imbalanced learning』、2021年7月15日、ScienceDirect、https://www.sciencedirect.com/science/article/abs/pii/S0957417421000233?casa_token=O0d1BtspA8YAAAAA:n2Uv3v2yHvjl9APVU9V_13rQ9K_KwT0P__nzd6hIngNcZJE-fmQufDgR6XT1uMmDBHx8bLXPVho（ibm.com外部へのリンク）。Shuai Yang他著、『Fault diagnosis of wind turbines with generative adversarial network-based oversampling method』、IOP Science、2023年1月12日、https://iopscience.iop.org/article/10.1088/1361-6501/acad20/meta（ibm.com外部へのリンク）。