公開日:2024年4月29日
寄稿者: Jacob Murel Ph.D.
アップサンプリングにより、データ・セット内のデータ・サンプルの数が増加します。そうすることで、不均衡なデータを修正し、モデルのパフォーマンスを向上させることを目的としています。
アップサンプリング(オーバーサンプリングとも呼ばれる)は、データを追加することでデータ・セット内のクラスの不均衡に対処する、データ処理および最適化の手法です。アップサンプリングでは、すべてのクラスのサイズが同じになるまで、少数クラスの元のサンプルを使用してデータを追加します。Python scikit-learnとMatlabには、アップサンプリング手法を実装するための組み込み関数が含まれています。
データサイエンスのアップサンプリングは、デジタル信号処理(DSP)のアップサンプリングとよく間違われます。この2つは本質は似ていますが、別物です。データサイエンスにおけるアップサンプリングと同様に、DSPのアップサンプリングでは、より高いサンプリング・レートを補間することで、入力信号(特に離散時間信号)から周波数領域でより多くのサンプルを人為的に作成します。これらの新しいサンプルは、元の信号にゼロを挿入し、補間のためにローパス・フィルターを使用することによって生成されます。これは、データ・バランシングでデータがアップサンプリングされる方法とは異なります。
データ・バランシングのためのアップサンプリングも、画像処理におけるアップサンプリングとは異なります。後者の場合、計算を高速化するために、高解像度の画像についてはまず解像度を下げ(ピクセルを削除する)、その後、畳み込みによって画像を元のサイズに戻します(ピクセルを追加する)。
特にAIガバナンスやリスク管理ソリューションの欠如など、AI導入の障壁について学びましょう。
基盤モデルについてのガイドに登録する
アップサンプリングは、データ・セット内の不均衡に対処する効果的な方法です。不均衡なデータ・セットは、1つのクラスが実際の母集団と比較して大幅に過小評価され、意図しないバイアスが生じるデータ・セットと定義されます。例えば、あるモデルが、犬と猫の画像を分類するようにトレーニングされたとします。そして、使用されるデータ・セットが90%は猫、10%は犬で構成されているとします。このシナリオでは猫の画像が過剰であり、すべての回で猫を予測する分類器があるとして、猫の分類に関しては精度は90%になりますが、犬の分類に関しては精度は0%になります。このケースでは不均衡なデータ・セットにより、分類器は多数派クラスの精度を優先し、少数派クラスを犠牲にすることになります。同じ問題は、マルチクラス・データ・セットでも発生する可能性があります1。
アップサンプリングのプロセスにより、不均衡なデータ・セットによる問題が解消されます。元のデータ・セットの少数派クラスの特性から合成されたポイントをデータ・セットに取り込みます。これにより、データ・セットにすべてのクラスにわたって等しい比率のポイントが含まれるようになるまで、過小評価されている少数派クラスのサンプル数を効果的に増やし、データ・セットのバランスが取れるようになります。
各クラスのデータ・ポイントの数をプロットするだけで不均衡を確認できますが、それがモデルに大きな影響を与えるかどうかはわかりません。幸いなことに、パフォーマンス・メトリクスを使用して、アップサンプリング手法がクラスの不均衡をどの程度適切に修正できるかを測定できます。これらのメトリクスのほとんどはバイナリー分類用であり、正と負の2つのクラスしか存在しません。通常、正のクラスは少数派クラスであり、負のクラスは多数派クラスです。一般的な2つのメトリクスは、受信者操作特性(ROC)曲線と精度-再現率曲線です1。
ランダム・オーバーサンプリングは、少数派クラスのサイズが多数派クラスと等しくなるまで、少数派クラス内のランダム・データ・ポイントを複製するプロセスです。
ランダム・オーバーサンプリングはブートストラッピングと、本質的には似ていますが異なります。ブートストラッピングは、すべてのクラスからリサンプリングするアンサンブル学習手法です。対照的に、ランダム・オーバーサンプリングでは、少数派のクラスからのみリサンプリングします。したがって、ランダム・オーバーサンプリングは、ブートストラッピングの特殊性の高い形式として理解できます。
ただし、その単純さにもかかわらず、ランダム・オーバーサンプリングには限界があります。ランダム・オーバーサンプリングは重複するデータ・ポイントを追加するだけなので、過剰適合になる可能性があります3。しかし、他の方法に比べて、実装が容易である、データに関する無理な想定をしない、アルゴリズムが単純であるため時間的コストが少ないなど、多くの利点があります。2
SMOTE(Synthetic Minority Oversampling Technique)は、2002年に初めて提案されたアップサンプリング手法で、少数派クラスの既存のポイントから新しいデータ・ポイントを合成します4。これは以下のプロセスで構成されています2。
SMOTEは、既存のデータを単純に複製するのではなく、これまでに見たことのない新しいデータをデータ・セットに追加することで、ランダム・オーバーサンプリングにおける過剰適合の問題に対処します。このため、一部の研究者は、SMOTEがランダム・オーバーサンプリングよりも優れたアップサンプリング手法であると考えています。
一方、SMOTEの人工的なデータ・ポイント生成は、データ・セットに余分なノイズを追加し、分類器をより不安定にする可能性があります1。また、SMOTEからの合成ポイントとノイズは、現実を反映していない少数派クラスと多数派クラスの間に誤って重なり合うことになり、いわゆる過剰な一般化につながる可能性があります5。
人気のある拡張機能の1つであるBorderline SMOTEは、人工的なデータ・セットのノイズの問題に対処し、「難易度の高い」データ・ポイントを作成するために使用されます。「難易度の高い」データ・ポイントは、決定境界に近いデータ・ポイントであるため、分類が難しくなります。これらの難易度の高いポイントは、モデルの学習には役立つ度合いが高くなります2。
Borderline SMOTEは、多くの多数派クラスのポイントに近い少数派クラスのポイントを特定し、それらをDANGERセットに入れます。DANGERポイントは学習するのが「難しい」データ・ポイントです。これもまた、少数派クラスのポイントに囲まれたポイントに比べて分類が難しいためです。この選択プロセスでは、最近傍が多数派クラスのポイントのみであるポイントは除外され、これらのポイントはノイズとしてカウントされます。そこから、SMOTEアルゴリズムは、このDANGERセットを使用して通常どおり続行されます3。
ADASYN(Adaptive Synthetic Sampling Approach)は、モデルの学習の難易度が高いデータを生成するという点で、Borderline SMOTEに似ています。しかし、それはまた、少数派クラスのデータの分布を保持することも目的としています6。これは、まず、近傍の多数派クラスの例の数に基づいて、すべての少数派クラスのポイントの加重分布を作成することによって行われます。そこから、新しいデータを生成する際に、多数派クラスに近い少数派クラスのポイントがより頻繁に使用されます。
プロセスは次のようになります2。
データ拡張では、データのバリエーションを作成することによって新しいデータを作成します。データ拡張は、さまざまな機械学習分野に応用されています。
データ拡張の最も基本的な形式では、データ・セットの生の入力の変換を扱います。例えば、コンピューター・ビジョンでは、画像拡張(トリミング、ぼかし、ミラーリングなど)を使用して、モデルが分類するためのより多くの画像を作成できます。同様に、データ拡張は、単語をその同義語に置き換えたり、意味的に同等の文を作成したりするなど、自然言語処理タスクでも使用できます。
研究者は、データ拡張により、類似のデータが低コストで追加されるため、コンピューター・ビジョンやNLPのタスクのモデル精度が効果的に向上することを発見しました。ただし、これらの手法を実行する前に、いくつかの注意事項に注目することが重要です。従来の幾何学的拡張の場合、変換を実行する前に変換の「安全性」を確認する必要があります。例えば、「9」の画像を回転させると、「6」に見え、意味が変わります7。
SMOTE拡張機能とディープラーニングは、近年のアップサンプリング技法における焦点となっています。これらの方法は、モデルのパフォーマンスを向上させ、少数派クラスの分布に生じる偏りなど、アップサンプリングのいくつかの欠点に対処することを目的としています。
SMOTEを発展させたものとして、MPP-SMOTE(Minority-Predictive-Probability SMOTE)があり、これは各少数派クラスのサンプルを見る推定確率に基づいてアップサンプリングします8。MLBOTE(Multi-Label Borderline Oversampling Technique)は、SMOTEをマルチクラス分類に拡張するために提案されています9。どちらも既存のすべてのSMOTEバリアントよりパフォーマンスが優れており、元のデータのパターンを保持します。
ニューラル・ネットワークは、オーバーサンプリング手法の開発にも使用されています。敵対的生成ネットワーク(GAN)は、トレーニング時間により従来の他のアップサンプリング方法よりも遅くなるものの、有望な結果を生み出し、ある程度の関心を集めています10。
ダウンサンプリングでは、データ・セット内のデータ・サンプルの数が減少します。そうすることで、不均衡なデータを修正し、モデルのパフォーマンスを向上させることを目的としています。
機械学習では、アルゴリズムがトレーニング・データに適合しすぎる、あるいは正確に適合すると、過剰適合が生じます。その結果、モデルはトレーニング・データ以外のデータから正確な予測や結論を出すことができくなります。
機械学習(ML)は、データとアルゴリズムを使用してAIに人間の学習方法を模倣させ、徐々に精度を向上させることに焦点を当てたAIとコンピューター・サイエンスの一分野です。
1 Haobo HeおよびEdwardo Garcia著、『Learning from Imbalanced Data』、IEEE、2009年9月、https://ieeexplore.ieee.org/document/5128907(ibm.com外部へのリンク)。(1、2、10)
2 Kumar AbishekおよびMounir Abdelaziz著、『Machine Learning for Imbalanced Data』、Packt、2023年11月、https://www.packtpub.com/product/machine-learning-for-imbalanced-data/9781801070836(ibm.com外部へのリンク)。(3、4、6、8、9、12、14-17)
3 Kumar AbishekおよびMounir Abdelaziz著、『Machine Learning for Imbalanced Data』、Packt、2023年11月、https://www.packtpub.com/product/machine-learning-for-imbalanced-data/9781801070836(ibm.com外部へのリンク)。Alberto Fernandez他著、『Learning from Imbalanced Data Sets』、2018年。
4 Nitesh Chawla他著、『SMOTE: Synthetic Minority Over-sampling Technique』、JAIR、2002年6月1日、https://www.jair.org/index.php/jair/article/view/10302(ibm.com外部へのリンク)。
5 Kumar AbishekおよびMounir Abdelaziz著、『Machine Learning for Imbalanced Data』、Packt、2023年11月。Haobo HeおよびEdwardo Garcia、『Learning from Imbalanced Data』、IEEE、2009年9月、https://ieeexplore.ieee.org/document/5128907(ibm.com外部へのリンク)。
6 Alberto Fernandez他著、『Learning from Imbalanced Data Sets』、Springer、2018年。
7 Connor ShortenおよびTaghi Khoshgoftaar著、『A survey on Image Data Augmentation for Deep Learning』、Springer、2019年7月6日、https://journalofbigdata.springeropen.com/articles/10.1186/s40537-019-0197-0(ibm.com外部へのリンク)。
8 Zhen Wei、Li Zhang、Lei Zhao著、『Minority prediction probability based oversampling technique for imbalanced learning』、Science Direct、2022年12月6日、https://www.sciencedirect.com/science/article/abs/pii/S0020025522014578?casa_token=TVVIEM3xTDEAAAAA:LbzQSgIvuYDWbDTBKWb4ON-CUiTUg0EUeoQf9q12IjLgXFk0NQagfh0bU3DMUSyHL_mjd_V890o(ibm.com外部へのリンク)。
9 Zeyu Teng他著、『Multi-label borderline oversampling technique』、ScienceDirect、2023年9月14日、https://www.sciencedirect.com/science/article/abs/pii/S0031320323006519?casa_token=NO8dLh60_vAAAAAA:AWPCvCP8PQG43DvkQFChZF2-3uzB1GJBBtgPURevWe_-aR0-WTbLqOSAsiwxulNAuh_4mIDZx-Y(ibm.com外部へのリンク)。
10 Justin EngelmannおよびStefan Lessmann著、『Conditional Wasserstein GAN-based oversampling of tabular data for imbalanced learning』、2021年7月15日、ScienceDirect、https://www.sciencedirect.com/science/article/abs/pii/S0957417421000233?casa_token=O0d1BtspA8YAAAAA:n2Uv3v2yHvjl9APVU9V_13rQ9K_KwT0P__nzd6hIngNcZJE-fmQufDgR6XT1uMmDBHx8bLXPVho(ibm.com外部へのリンク)。Shuai Yang他著、『Fault diagnosis of wind turbines with generative adversarial network-based oversampling method』、IOP Science、2023年1月12日、https://iopscience.iop.org/article/10.1088/1361-6501/acad20/meta(ibm.com外部へのリンク)。