自己教師あり学習とは

発行日：2023年12月5日
寄稿者：Dave Bergmann

自己教師あり学習とは

教師なし学習とは、従来は教師あり学習を必要としていたタスクに教師なし学習を用いる機械学習の手法です。自己教師ありモデルは、監視信号のラベル付きデータ・セットに依存するのではなく、非構造化データから暗黙的なラベルを生成します。

自己教師あり学習（SSL）は、コンピューター・ビジョンや自然言語処理（NLP）のように、最先端の人工知能（AI）モデルをトレーニングするために、大量のラベル付きデータを必要とする分野で特に有用です。これらのラベル付きデータ・セットには人間の専門家による時間のかかるアノテーションが必要なため、十分なデータを収集することが非常に困難になる場合があります。自己教師ありアプローチは、トレーニング・データに手動でラベルを付ける必要の一部またはすべてを置き換えるため、時間とコスト効率が向上します。

分類や回帰のような精度が要求されるタスクのためにディープラーニング・モデルをトレーニングするには、与えられた入力に対するモデルの出力予測を、その入力に対する「正しい」予測（通常、グラウンド・トゥルースと呼ばれる）と比較できる必要があります。通常、手動でラベル付けされたトレーニング・データがその基準として機能します。この方法は人間による直接の介入が必要なため、「教師あり」学習と呼ばれます。自己教師あり学習では、ラベルなしデータから「グラウンド・トゥルース」を推測できるようにタスクが設計されています。

SSLでは、タスクはプレテキスト・タスクとダウンストリーム・タスクの2つのカテゴリに分類されます。プリテキストタスクでは、SSLを使用してAIシステムをトレーニングし、非構造化データの意味のある表現を学習させます。これらの学習された表現は、その後、教師あり学習タスクや強化学習タスクなどのダウンストリーム・タスクの入力として使用できます。新しいタスクで事前にトレーニングされたモデルを再利用することは、「転移学習」と呼ばれます。

教師あり学習は、BERTやGPTのような変換器ベースの大規模言語モデル（LLM）から、変分オートエンコーダー（VAE）や生成的敵対ネットワーク（GAN）のような画像合成モデル、SimCLRやモーメンタムコントラスト（MoCo）のようなコンピューター・ビジョン・モデルまで、さまざまなタスクのための洗練されたディープラーニング・アーキテクチャの多様な配列のトレーニングに使用されています。

IBM watsonx.aiのツアーを見る

AIモデルのトレーニング、検証、ファイン・チューニング、デプロイを行うための、AI開発者向けの次世代エンタープライズ・スタジオをご利用ください。

関連コンテンツ

IBMニュースレターを購読する

自己教師あり学習、教師あり学習と教師なし学習

自己教師あり学習は技術的には、教師なし学習のサブセットですが（ラベル付きデータ・セットを必要としないため）、グラウンド・トゥルースに対してパフォーマンスを最適化するという点で、教師あり学習と密接に関連しています。

従来の両方の機械学習パラダイムとの不完全な適合により、現在では集合的に「自己教師あり学習」とみなされるさまざまな手法が独自に分類されるようになりました。

この用語の造語は、チューリング賞を受賞したコンピューター科学者であり、ディープラーニング誕生における重要人物であるヤン・ルクン（Yann LeCun）¹ 、SSLを真の教師なし学習（同氏はこれを「負荷が高く、混乱を招く用語」と呼びました）と曖昧さをなくす必要があると宣言しました。²この名称（および正式な概念）は、2007年のRainaらによる論文「Self-taught learning: Transfer learning from unlabeled data（独学学習：ラベルなしデータからの転移学習）」に由来していると思われます。³現在SSLとみなされる一部の機械学習フレームワークは、オートエンコーダーと同様、この用語自体が存在するよりも何年も前から存在しています。

自己教師あり学習と教師なし学習

自己教師あり学習は教師なし学習のサブセットです。すべての自己教師あり学習は、教師なし学習ですが、ほとんどの教師なし学習は自己教師なし学習を伴いません。

教師なし学習も自己教師あり学習も、トレーニング・プロセスでラベルを使用しません。どちらの方法も、注釈付きのデータ・セットから外部から課せられた相関関係ではなく、ラベルなしデータに内在する相関関係とパターンを学習します。ラベル付けされていないデータに焦点を当てている点を除けば、自己教師あり学習と教師なし学習の違いは、教師なし学習と教師あり学習の違いとほとんど同じです。

従来の教師なし学習を使用した問題では、既知のグラウンド・トゥルースに照らして結果が測定されません。例えば、教師なしアソシエーションモデルは、どの商品がよく一緒に購入されるかを学習することで、eコマースのレコメンドエンジンに活用することができます。モデルの有用性は、人間の予測を再現することからではなく、人間の観察者には明らかではない相関関係を発見することから得られます。

自己教師付き学習では、ラベルの付いていないトレーニング・データから暗黙的に導き出されたものであっても、根拠となる真実に照らして結果を測定します。教師ありモデルと同様に、自己教師ありモデルは損失関数を使用して最適化されます。損失関数は、グラウンド・トゥルースとモデル予測の乖離（「損失」）を測定するアルゴリズムです。トレーニングのなかで、自己教師モデルは、バック・プロパゲーション中に勾配降下法を用いて、損失を最小化する（それによって精度を向上させる）方法でモデルウェイトを調整します。

この重要な違いにより、2つの手法は異なるユースケースに焦点を当てており、教師なしモデルは、クラスタリング、異常検出、次元削減など、損失関数を必要としないタスクに使用され、自己教師ありモデルは、教師あり学習に典型的な分類および回帰タスクに使用されます。

自己教師あり学習と教師あり学習

教師あり学習と自己教師あり学習は主に同じ種類のタスクに使用され、どちらも損失関数によってパフォーマンスを最適化するためのグラウンド・トゥルースを必要としますが、自己教師ありモデルはラベル付けされていないデータでトレーニングされるのに対して、教師あり学習はトレーニングにラベル付けされたデータ・セットを必要とします。

ラベル付きデータセットは、モデルのトレーニングに非常に効果的です。トレーニング・データに注釈を付けることで、モデルは、注釈が反映する主要な特徴と相関関係を直接学習できます。モデルの予測と、トレーニング中に人間の専門家が手作業で注釈を付けた「予測」との乖離を最小限に抑えることで、教師ありモデルは、新しい（ラベルのない）入力データに対して、正しい推論を行うことを学習します。

最先端の教師ありアプローチでは高精度が得られますが、大量のトレーニングに注釈を付けることが研究プロセスのボトルネックになることがよくあります。例えば、インスタンス・セグメンテーションのようなピクセル固有の予測を必要とするコンピューター・ビジョンのタスクでは、トレーニング・データの注釈はピクセルレベルで行う必要があります。これにはコストと時間がかかり、利用可能なトレーニング・データの量と、ほとんどの企業や研究者がそれらを取得する能力が制限されます。

対照的に、自己教師ありモデルはさまざまな手法を使用して入力データ自体の構造から監視信号を取得し、ラベル付けの必要性をなくします。たとえば、文の一部をランダムに非表示（または「マスク」）し、元の（ラベルのない）文をグラウンド・トゥルースとして使用して、自己教師ありモデルに隠された単語を予測するタスクを課します。

自己教師あり学習と半教師あり学習

人間がラベル付けしたデータを使用しない自己教師あり学習とは異なり、半教師あり学習では、ラベル付きデータとラベルなしデータの両方を使用してモデルをトレーニングします。たとえば、半教師ありモデルは、少量のラベル付きデータ・ポイントを使用して、ラベルのない残りのトレーニング・データ・セットのラベルを推測し、その後、データセット全体を教師あり学習に使用する場合があります。どちらのアプローチも教師あり学習における大規模なラベル付きデータ・セットの必要性を回避するため、動機は似ていますが、それぞれの方法論は異なります。

自己教師あり学習の仕組み

自己教師あり学習タスクは、損失関数がラベルなしの入力データをグラウンド・トゥルースとして使用できるように設計されています。これにより、モデルはラベルや注釈なしで入力データの正確で意味のある表現を学習できるようになります。

自己教師あり学習の目標は、ラベル付きデータの必要性を最小限に抑えるか、完全に置き換えることです。ラベル付けされたデータは比較的少なく、高価ですが、ラベルなしのデータは豊富で比較的安価です。基本的に、プリテキスト・タスクは、ラベルのないデータから「疑似ラベル」を生成します。「プレテキスト」という用語は、トレーニング・タスク自体が（必ずしも）有用ではないことを意味します。トレーニング・タスクが役立つのは、後続のダウンストリーム・タスクに役立つデータ表現をモデルに学習させるからです。したがって、プリテキスト・タスクは、しばしば表現学習とも呼ばれます。

SSLで事前にトレーニングされたモデルは、多くの場合、特定のダウンストリーム・タスクに合わせてファイン・チューニングされます。このファイン・チューニングには、多くの場合、真の教師あり学習が含まれます（ただし、教師あり学習のみでモデルをトレーニングするのに必要なラベル付きデータの一部が使用されます）。

SSLは、その方法論とユースケースの両方において多様ですが、SSLでトレーニングされたモデルは、自己予測学習と対照学習という2つの機械学習手法のいずれか（または両方）を使用します。

自己予測学習

自己連想自己教師あり学習としても知られる自己予測手法は、他の部分に関する情報が与えられた場合に、個々のデータ・サンプルの一部を予測するようにモデルをトレーニングします。これらの方法でトレーニングされたモデルは、通常、識別モデルではなく、生成モデルになります。

ヤン・ルカンは、自己教師あり手法を「空白を埋める」という構造化された実践として特徴付けています。大まかに言うと、ラベル付けされていないデータの基本構造から、意味のある表現を学習するプロセスを簡単な言葉で説明しました。「入力の中に知らない部分があることにして、それを予測する」と。⁴ 例えば、

入力の任意の部分を他の部分から予測します。
過去から未来を予測します。
目に見えるものからマスクされたものを予測します。
利用可能なすべてのパーツから遮蔽されたパーツを予測します。

これらの原理に基づいて構築された自己教師ありシステムでは、多くの場合、特定のモデル・アーキテクチャーとトレーニング手法が用いられます。

オートエンコーダー
オートエンコーダーは、入力データを圧縮（またはエンコード）し、その圧縮された表現を使用して、元の入力を再構成（またはデコード）するようにトレーニングされたニューラル・ネットワークです。元の入力自体をグラウンド・トゥルースとして使用して、再構成誤差を最小限に抑えるようにトレーニングされています。

オートエンコーダーのアーキテクチャーはさまざまですが、通常は何らかのボトルネックが発生します。データがエンコーダー・ネットワークを進むにつれて、各層のデータ容量は段階的に減少します。これにより、ネットワークは入力データ内に隠された最も重要なパターン（潜在変数または潜在空間と呼ばれます）のみを学習するように強制されるため、デコーダー・ネットワークは情報が少なくなったにもかかわらず、元の入力を正確に再構築できます。

この基本フレームワークを変更すると、オートエンコーダーが便利な機能を学習できるようになります。

ノイズ除去オートエンコーダーには、部分的に破損した入力データが与えられ、不要な情報（「ノイズ」）を削除して、元の入力を復元するようにトレーニングされます。これにより、過学習が減り、このようなモデルは、破損した入力画像や音声データを復元するようなタスクに有用となります。
ほとんどのオートエンコーダーは潜在空間の離散モデルをエンコードしますが、変分オートエンコーダー（VAE）は潜在空間の連続モデルを学習します。つまり、入力データの潜在表現を確率分布としてエンコードすることにより、デコーダーはその分布からランダム・ベクトルをサンプリングして、新しいデータを生成できます。

自己回帰
自己回帰モデルは、過去の動作に基づいて、将来の動作を予測します。これらは、言語、音声、動画など、固有の順序を持つデータは回帰でモデル化できるという論理に基づいています。

自己回帰アルゴリズムは、前のタイムステップの値を用いて時系列データをモデル化し、次のタイムステップの値を予測します。線形回帰に使われるような従来の回帰アルゴリズムでは、独立変数が目標値（または従属変数）を予測するために用いられるのに対して、自己回帰では、独立変数と従属変数は本質的に1つで、同じです。回帰が変数それ自体で実行されるので、自己回帰と呼ばれます。

自己回帰は、テキストの生成や質問への回答などのタスクに優れたLLMのGPT、LLaMa、Claudeファミリーなどの因果言語モデルで主に使用されます。事前のトレーニングでは、ラベルのないトレーニング・データから抽出されたサンプル文の先頭が言語モデルに入力され、サンプル文の「実際の」次の単語がグラウンド・トゥルースとして機能する、次の単語を予測するタスクが与えられます。

マスキング
もう1つの自己教師あり学習方法には、ラベルのないデータ・サンプルの特定の部分をマスキングし、不足している情報を予測または再構築するタスクをモデルに課すことが含まれます。損失関数は、元の（マスキング前の）入力をグラウンド・トゥルースとして使用します。たとえば、マスクされたオートエンコーダーは、ノイズ除去オーディオエンコーダーの逆のようなものです。無関係な情報を排除するのではなく、欠けている情報を予測して復元することを学習します。

マスキングは、マスクされた言語モデルのトレーニングにも使用されます。サンプル文からランダムな単語が省略され、モデルはそれらを埋めるようにトレーニングされます。BERTのようなマスク言語モデル（およびBARTやRoBERTaのような、そのアーキテクチャーから構築された多くのモデル）は、自己回帰モデルよりもテキスト生成が不得手であることが多いが、双方向性という強みがあります。つまり、次の単語だけでなく、前の単語、もしくはシーケンスの後に出てくる単語を予測することができます。そのため、翻訳や要約、検索など、深い文脈の理解を必要とするタスクに適しています。

生得的関係予測
生得的関係予測は、データ・サンプルが何らかの方法で変換された後もデータ・サンプルの理解を維持するようにモデルをトレーニングします。例えば、入力画像を回転させて、元の入力に対する回転の変化の度合いと方向を予測することをモデルに課します。⁵

対照学習

対照自己教師あり学習では、モデルに複数のデータ・サンプルを入力し、それらの間の関係を予測するようにタスクを与えます。これらの方法でトレーニングされたモデルは通常、生成モデルではなく、識別モデルになります。

対照モデルは通常、トレーニングのためにデータとデータのペアを使用しますが、自己連想モデルはデータとラベルのペア（ラベルがデータから自己生成される）を使用します。これらのデータとデータのペアを用いて、モデルに対照学習させて、類似するものと類似しないものを区別させます。

これらのペアは多くの場合、データ拡張によって作成されます（ラベル付けされていないデータにさまざまな種類の変換や摂動を適用して、新しいインスタンスまたは拡張ビューを作成します）。たとえば、画像データの一般的な拡張手法には、回転、ランダム・トリミング、反転、ノイズ処理、フィルタリング、色付けなどがあります。データ拡張は、データのばらつきを増大させ、モデルをさまざまな視点にさらすことで、モデルが意味のある動的なセマンティック表現をキャプチャできるように学習させるのに役立ちます。

インスタンス識別
インスタンス識別ベースのモデルは、トレーニングを一連の二項分類タスクとして構成します。1つのデータ・サンプルをターゲット（または「アンカー」）として使用すると、他のデータサンプルは「正」（一致する）もしくは「負」（一致しない）と判断されます。

コンピューター・ビジョンでは、SimCLRやMoCoなどの手法は通常、ラベルのない生画像のバッチから開始し、変換のランダムな組み合わせを適用して、拡張画像サンプルのペア（またはセット）を生成します。次に、これらの拡張画像のそれぞれがベクトル表現にエンコードされ、対照損失関数を用いて、正の一致（同じ元の画像から派生した拡張画像のペア）間のベクトル表現の差を最小化し、負の一致間の差を最大化します。

したがって、インスタンス識別手法は、ランダムなデータ拡張のおかげで、些細な変動（特定の画像内の色、視点、または目に見える部分など）に対してロバストな、さまざまなカテゴリーの表現を学習するようにモデルをトレーニングします。したがって、これらの表現は、ダウンストリーム・タスクに非常によく一般化されます。

非対照学習
やや直感に反しますが、「非対照学習」とは、対照学習と密接に関連する方法を指します（一見、対照学習以外の一般的な総称に聞こえますが）。モデルは正のペアのみを使用してトレーニングされ、それらの表現間の違いを最小限に抑えるように学習します。つまり、対照（学習）ではありません。

対照学習と比較すると、非対照学習のアプローチは比較的単純です。非対照学習のアプローチは、正のサンプルのみを使用するため、トレーニング・エポックに使用するバッチ・サイズが小さくなり、負のサンプルを保存するためのメモリ・バンクを必要としません。これにより、事前トレーニングにおけるメモリと計算コストを節約できます。

Bootstrapping Your Own Latent（BYOL）⁶やBarlow Twins⁷のような非対照モデルは、対照モデルや純粋な教師あり学習の結果と遜色のない結果を出しています。

マルチモーダル学習
異なるタイプ（モダリティー）のデータ・ポイントが与えられると、対照学習では、それらのモダリティー間のマッピングを学習できます。例えば、CLIP（Contrastive Language-Image Pre-training）は、画像エンコーダーとテキストエンコーダーを共同でトレーニングし、インターネットから収集した数百万もの容易に入手できるラベル付けされていない（画像とテキストの）ペアを使用して、どの画像にどのキャプションが適しているかを予測します。事前トレーニング後、自然言語処理（NLP）は、トレーニングで学習した視覚概念を参照するために（あるいは、新しい視覚概念を記述するために）使用され、CLIPでトレーニングされたモデルは、さまざまな伝達学習用途に極めて有用です。

対照学習は、動画とテキスト⁸、動画と音声⁹、および音声とテキスト¹⁰の間のアラインメントをトレーニングする目的にも使用されています。

自己教師あり学習のユースケース

自己教師あり学習は、さまざまなタスクや領域向けの人工知能モデルを事前トレーニングするために使用されてきました。

NLPのための自己教師あり学習

2018年の導入から1年以内に、GoogleはBERTマスク言語モデルをSearchのランクおよび強調スニペットのNLPエンジンとして実装しました。¹¹ 2023年現在、GoogleはBERTアーキテクチャーを実世界の検索アプリケーションに活用し続けています。¹²

LLaMa、GPT、およびClaudeファミリーのLLMは、自己回帰言語モデルです。GPT3は、主に自己教師あり学習でトレーニングされました。InstructGPTと、ChatGPTをローンチするために使用された後続のGPT-3.5モデルは、人間からのフィードバックを用いた強化学習（RLHF）を使用して、事前にトレーニングされたモデルをファイン・チューニングしました。

自己回帰モデルは、WaveNetなどの音声合成モデルだけでなく、Speech-to-Textのような音声ベースのNLPタスクにも使用されています。¹³Facebook（Meta）は、音声認識にwav2vecを使用しており、2つの深層畳み込みニューラル・ネットワークを重ね合わせて使用し、生の音声入力をベクトル表現にマッピングしています。自己教師あり事前学習では、これらのベクトルは自己予測タスクの入力として使用されます。¹⁴

コンピューター・ビジョンのための自己教師あり学習

自己教師あり学習は、医療画像処理に使用されるディープラーニング技術の一部として急速に成長していますが、専門的に注釈が付けられた画像は比較的希少です。PubMed、Scopus、ArXiv全体において、医療画像の分類にSSLを使用することを言及した論文は、2019年から2021年にかけて、1,000％以上増えました。¹⁵

SSLベースの手法は、多くの場合、完全に監視された手法を用いてトレーニングされたモデルの精度と同等、もしくは上回ります。例えば、オリジナルのMoCoは、PASCAL、VOC、COCOデータ・セットの7つの物体検出と画像セグメンテーションタスクにおいて、教師ありモデルを上回りました。¹⁶ 全てのトレーニングデータのわずか1%のラベル付きデータを使用してファイン・チューニングした場合、SSLで事前にトレーニングされたモデルは、ImageNetデータ・セットで80%以上の精度を達成しました。これは、ResNet50などの、ベンチマークの教師あり学習モデルのパフォーマンスに匹敵するものです。

物体の方向が変化しても、物体検出と画像セグメンテーションを正常に維持できる機能は、多くのロボット・タスクにおいて不可欠です。自己教師あり学習は、時間のかかるラベル付きデータの収集を行わずに、回転を理解できるようにコンピューター・ビジョン・モデルをトレーニングする効果的な方法として提案されています。^{17, 18}

マスキングは、動画内の動きの軌跡を理解できるように、モデルをトレーニングするために使用されてきました。¹⁹

画像処理と画像合成のための自己教師あり学習

ノイズ除去オートエンコーダーは、Stable Diffusionのような最先端の画像合成モデルのトレーニングに不可欠なコンポーネントです。²⁰

自己回帰モデリングは、PixelRNNやPixelCNNなどのモデルの画像合成に使用されてきました。PixelCNNが上手くいったことで、WaveNetの土台となりました。

畳み込みオートエンコーダーは、グレー・スケール画像の修復やカラー化など、さまざまな画像処理タスクに使用されています。

変分オートエンコーダー（VAE）は、画像合成において重要なツールです。OpenAIのオリジナルのDALL-Eモデルは、VAEを用いて画像を生成しました。DALL-E 1とDALL-E 2はいずれも、自然言語プロンプトを視覚情報に変換するプロセスでCLIPを使用しています。²¹

脚注

すべてのリンク先は、ibm.comの外部です。

¹ "Fathers of the Deep Learning Revolution Receive ACM A.M. Turing Award," Association for Computing Machinery, 27 Mar 2019
² Facebook, Yann LeCun, 30 Apr 2019
³ "Self-taught learning: transfer learning from unlabeled data," Proceedings of the 24th international conference on machine learning, 20 June 2007
⁴ Lecture: Energy based models and self-supervised learning, YouTube, uploaded 2020
⁵ "Learning to see by moving," arXiv, 14 Sep 2015
⁶ "Bootstrap Your Own Latent: A New Approach to Self-Supervised Learning," arXiv, 10 Sep 2020
⁷ "Barlow Twins: Self-Supervised Learning via Redunancy Reduction," arXiv, 14 June 2021
⁸ "VideoCLIP: Contrastive Pre-Training for Zero-shot Video-Text Understanding," arXiv, 1 Oct 2021⁹ "Active Contrasting Learning of Audio-Visual Video Representations," Proceedings of the International Conference on Learning Representations, 2021
¹⁰ "Cross-modal Contrastive Learning for Speech Translation," arXiv, 5 May 2022
¹¹ "Understanding searches better than ever before," Google, 25 Oct 2019
¹² "End-to-End Query Term Weighting," Google, 2023¹³ "WaveNet: A Generative Model for Raw Audio," arXiv, 19 Sep 2016
¹⁴ "Wave2vec: State-of-the-art speech recognition through self-supervision," Meta, 19 Sep 2019
¹⁵ "Self-supervised learning for medical image classification: a systematic review and implementation guidelines," Nature, 26 April 2023
¹⁶ "Momentum Contrast for Unsupervised Visual Representation Learning," arXiv, 13 Nov 2019 (last revised 23 Mar 2020)¹⁷ "Deep Projective Rotation Estimation through Relative Supervision," arXiv, 21 Nov 2022
¹⁸ "Orienting Novel 3D Objects Using Self-Supervised Learning of Rotation Transforms," arXiv, 29 May 2021
¹⁹ "Masked Motion Encoding for Self-Supervised Video Representation Learning," The Computer Vision Foundation, Oct 2022
²⁰ "High-Resolution Image Synthesis with Latent Diffusion Models," arXiv, 20 Dec 2021 (last revised 13 Apr 2022)
²¹ "DALL-E: Creating images from text," OpenAI, 5 Jan 2021