ゼロショット学習とは何ですか?

パブリッシュ済み: 24 1月 2024
貢献： デイブ・バーグマン

ゼロショット学習とは

ゼロショット学習 (ZSL) は、AI モデルがオブジェクトや概念を認識して分類するようにトレーニングされ、それらのカテゴリや概念の例を事前に見なくても、それらのカテゴリや概念を分類する機械学習シナリオです。

分類や回帰のための最先端のディープラーニングモデルのほとんどは、教師あり学習によってトレーニングされるため、関連するデータクラスのラベル付き例が多数必要になります。モデルは、ラベル付けされた訓練データセット上で予測を行うことによって「学習」する。データ・ラベルは、各訓練例について、可能な答えの範囲と正しい答え（またはグランド・トゥルース）の両方を提供する。ここでの「学習」とは、モデルの重みを調整して、モデルの予測とそのグランドトゥルースの間の差異を最小限に抑えることを意味します。このプロセスには、トレーニングと更新を何回も行うのに十分な量のラベル付きサンプルが必要です。

教師あり学習は強力ではありますが、現実世界のシナリオによっては非現実的です。大量のデータサンプルに注釈を付けるにはコストと時間がかかり、希少疾患や新しく発見された種などの場合、例が不足しているか存在しない可能性があります。画像認識タスクを考えてみましょう。ある研究によると、人間は約30,000の個別に区別できるオブジェクトカテゴリを認識できます。¹ クラスごとにラベル付けされたデータで明示的にトレーニングする必要がある場合、人工知能モデルが人間の能力にリモートでアプローチすることは、時間、コスト、計算リソースの観点から現実的ではありません。

機械学習モデルは、最小限のトレーニングオーバーヘッドで多数のセマンティックカテゴリに迅速に一般化できる必要性から、機械学習のサブセットである nショット学習( 少数ショット学習 (FSL)と ワンショット学習も含む)が生まれました。フューショット学習では通常、転移学習とメタ学習ベースの手法を使用してモデルをトレーニングし、少数のラベル付きトレーニングサンプル (またはワンショット学習の場合は 1 つのラベル付きサンプル) だけで新しいクラスを迅速に認識します。

ゼロショット学習は、 すべてのnショット学習と同様に、特定のアルゴリズムやニューラルネットワークアーキテクチャではなく、学習問題自体の性質を指します:ZSLでは、モデルは、トレーニング後に予測を行うように求められる目に見えないクラスのラベル付き例でトレーニングされません。

この問題設定では、そのクラスがトレーニングデータ内に (ラベルなしであっても) 存在したかどうかは考慮されていません。たとえば、一部の大規模言語モデル(LLM) は、未知のデータクラスへの偶発的な参照や知識を含む可能性のあるテキストの大規模なコーパスに対する自己教師あり学習によって事前にトレーニングされているため、ZSLタスクに適しています。 ZSLの手法は、ラベル付けされた事例を利用することなく、予測を行うために補助的な知識を利用する。

その汎用性と幅広いユースケースを考えると、ゼロショット学習は、データサイエンス、特にコンピュータービジョンと自然言語処理(NLP)の分野でますます注目すべき研究分野になっています。

一般化ゼロショット学習 (GSZL)

従来の ZSL 設定では、モデルは、目に見えないクラスのデータからのサンプルを含むデータセットでテストされます。ゼロショット手法の開発と検証には役立ちますが、一般的な現実世界の条件はほとんど反映されていません。一般化ゼロショット学習(GSZL) は、データがモデルを指す特定のゼロショット学習問題を指します。分類するタスクは、未見のクラスまたは既知のクラスのいずれかに属する可能性があります。つまり、モデルがラベル付きの例からすでに「学習」したクラスです。

GSZL は、追加の課題を克服する必要があります。それは、分類器が、まだ公開されていない未確認のクラスよりも、トレーニングで確認されたクラスに予測を偏らせる傾向です。そのため、GSZL では、そのバイアスを軽減するために追加のテクニックが必要になることがよくあります。

AIガバナンスがエンタープライズAIの拡張にビジネスに不可欠な理由

AI 導入の障壁、特に AI ガバナンスとリスク管理ソリューションの欠如について学びます。

関連コンテンツ

基礎モデルのガイドに登録する

ゼロショット学習はどのように機能しますか?

モデルが学習しようとするカテゴリのラベル付けされた例がない場合、ゼロショット学習問題では、補助的な情報、つまりテキスト記述、属性、埋め込み表現、または手元のタスクに関連するその他の意味情報を利用する。

ゼロショット学習技術は、クラス間の決定境界を直接モデル化するのではなく、通常、特定の入力が特定のクラスに属する可能性を表す確率ベクトルを出力します。 GSZL メソッドでは、最初にサンプルが既知のクラスに属するか新しいクラスに属するかを判断し、それに応じて処理を進める予備的な識別子を追加できます。

ラベルを理解する

教師あり学習 (および少数ショット学習 (FSL)) では、モデルは各クラスの 1 つ以上のラベル付きサンプルを直接観察することによって、さまざまなクラスを認識することを学習します。このような明示的な注釈がなければ、ゼロショット学習はラベルの意味をより根本的に理解する必要がある。

簡単な例えとして、子供が鳥がどんな形をしているのかを知りたいと考えていると想像してください。教師あり学習または FSL に似たプロセスで、子供は動物の絵の本で「鳥」とラベル付けされた画像を見て学習します。さらに進むと、彼女はすでに見た鳥の画像に似ているため、その鳥を認識します。しかし、ZSL シナリオでは、そのようなラベル付きの例は利用できません。代わりに、子供は百科事典の鳥に関する項目を読んで、鳥が羽、くちばし、翼を持ち、空を飛ぶことができる中型または中型の動物であることを学ぶかもしれません。そうすれば、彼女は鳥の概念を学んだので、これまで見たことがなくても、現実の世界で鳥を認識できるようになります。

前述したように、LLM は、データクラスの名前付けに使用される単語の意味を根本的に理解する能力に由来する、ZSL の自然な可能性を示しています。

転移学習

トレーニングに必要な時間とリソース、および目に見えないクラスを特定するために必要な補助情報の量を最小限に抑えるために、ZSLはモデルをゼロからトレーニングするのではなく、転移学習（トレーニングされたモデルを新しいタスクに転用する）を活用することがよくあります。

転移学習は、クラスとサンプルをセマンティック埋め込みとして表す ZSL メソッドで主に使用されます。たとえば、ゼロショットテキスト分類を実行するモデルは、言語データの膨大なコーパスで事前トレーニング済みの BERT のようなトランスフォーマーベースのモデルを使用して、単語をベクトル埋め込みに変換する可能性があります。同様に、ゼロショット画像分類モデルは、分類に情報を与える可能性のある重要な画像特徴の特定に役立つフィルターの重みを既に学習しているため、ResNet や U-Net などの事前トレーニング済み畳み込みニューラルネットワーク (CNN)を再利用する可能性があります。

転移学習は GSZL にとって特に重要であり、可視クラスに関するモデルの知識を未可視クラスに関する補助情報として使用できます。たとえば、物体検出モデルがハイイログマを認識することをすでに学習していると想像してください。ラベルを貼ったホッキョクグマの例を与えてホッキョクグマも認識できるように訓練する代わりに、ホッキョクグマは白い毛皮を持つグリズリーベアに似ていると理解できるように訓練することができる。

学習した知識を新しいタスクや異なるクラスに移行するこのプロセスは、ドメイン適応とも呼ばれる。

属性ベースのメソッド

属性に基づくゼロショット学習法は、従来の教師あり学習と同様の論理を用いる。各データクラスのラベル付けされた例で分類器を直接訓練するのではなく、色、形、その他の重要な特徴のような、特定のデータクラスのラベル付けされた特徴で分類器を訓練する。

ターゲットクラスはトレーニングでは直接表示されませんが、未表示のクラスの属性がトレーニングデータに存在する属性クラスに類似している場合、そのクラスのラベルを推測できます。

分類器が関連するすべての特徴を学習すると、さまざまなクラスの意味論的記述を利用できるようになります。このアプローチは、ターゲットクラスのラベル付きサンプルが利用できないが、その特徴のラベル付きサンプルが比較的豊富にある場合に特に役立ちます。たとえば、モデルはトラやシマウマの画像から「縞模様」を学習できます。カナリアの画像から「黄色」を学習し、ハエの画像から「飛んでいる昆虫」を学習できます。このモデルは、学習セットにハチの画像がないにもかかわらず、ハチを学習した特徴の組み合わせとして理解できるため、ハチのゼロショット分類を実行できるようになった："黄色で縞模様の飛ぶ昆虫"

属性ベースの ZSL メソッドは汎用性があり、適切な状況で便利ですが、次のような重要な欠点があります。

これらは、すべてのクラスが単一の属性ベクトルで記述できるという重要な前提に基づいていますが、常にそうであるとは限りません。 Mall、Hariharan、Balaの3人は、性別、年齢、繁殖状態によって色や羽の模様が異なるアメリカゴジュウカラや、色、表面、正式な線の有無（または有無）によって大きく異なる屋外のバドミントンコートの例を挙げている²。
個々の属性の例に注釈を付けるには、特定のクラスの例に注釈を付けるのと同じくらいコストと時間がかかる可能性があります。
属性ベースのメソッドは、属性が不明であるか、利用可能なサンプルに存在しないクラスには一般化できません。

埋め込みベースのメソッド

多くの ZSL メソッドは、クラスとサンプルの両方をセマンティックエンベッディングとして表現します。セマンティックエンベッディングとは、さまざまなデータポイントの特徴や意味 (およびデータポイント間の関係) を反映するために使用できるベクトル表現です。次に、特定のサンプルの意味的埋め込みと、それが分類される可能性のあるさまざまなクラスの埋め込みとの間の類似性を測定することによって、分類が決定されます。

データポイントがエンベディングとして表現されると、 K 最近傍法アルゴリズムと同様の原理を使用して分類が決定されます。コサイン類似度、ユークリッド距離、ワッサーシュタイン距離などの距離のメトリックが、エンベディングの近接性を測定するために使用されます。各潜在的なクラスのエンベディングにデータを入力します。そのデータサンプルの埋め込みが特定のクラスの埋め込みに近い (または類似している) ほど、そのクラスに属する可能性が高くなります。

これらの埋め込みは、さまざまな方法で生成できます。たとえば、

BERT、word2vec、Glove (Global Vectors) などの事前にトレーニングされたモデルやアルゴリズムは、単語のベクトル埋め込み (クラスラベルの名前など) を簡単に出力できます。
同様に、ResNet などの事前トレーニング済み CNN のエンコーダーネットワーク (または ViT などのトランスフォーマーベースの画像エンコーダー) は、画像に対して同じことを行うことができます。
オートエンコーダーは、サンプルまたはクラスの潜在表現 (特定のデータ入力の最も特徴的な変数を分離する圧縮された低次元エンコード) を学習できます。
転移学習の代わりに、様々なニューラルネットワークアーキテクチャを、ラベル付けされた例が利用可能な関連データクラスのサンプルのような、関連する訓練データ上でゼロから訓練し、効果的な埋め込みを出力することができる。

結合埋め込み空間
埋め込みベースのメソッドは通常、クラス・ラベルを説明する単語埋め込みや、そのクラスに属する可能性のある写真の画像埋め込みなど、さまざまな形式（またはモダリティ）のデータの補助情報とベクトル空間埋め込みを処理するため、各種データ型の埋め込み間の比較を容易にする方法が必要です。

比較するには、異なるタイプとサイズのベクトル埋め込みを正規化し、共有の高次元意味空間（結合埋め込み空間と呼ばれる）に投影して、同等の設定で比較する必要があります。抽象的に言えば、これは、異なる分数を比較する最小公倍数を見つけるという概念と同様に機能します。異なる埋め込みソース間の強力な相関マッピングは、モデルの一般化パフォーマンスに不可欠です^。3

また、コントラスティブ学習の中には、異なるモデルやアルゴリズムからのセマンティック埋め込みをより適切に調整するために、 コントラスティブ学習 を使用するものもあります: セマンティック埋め込みのペアを使用して、コントラスティブ学習は、「正」のペア間の距離を最小化し(犬の画像と「犬」という単語の画像の埋め込みなど)、"負の"(一致しない)ペア間の距離を最大化するようにモデルをトレーニングします。

エンドツーエンドの共同トレーニング
さまざまなモデルの埋め込み間の整合性を確保する効果的な方法の1つは、これらのモデルを並べて共同トレーニングすることです。たとえば、OpenAIのContrastive Language-Image Pre-training（CLIP）モデルは、インターネットから取得した4億を超える画像とキャプションのペアからなるラベルのない巨大なデータセットでトレーニングされています。⁴

これらのペアリングは、画像エンコーダーとテキストエンコーダーを一緒に最初からトレーニングするために使用され、コントラスト損失を使用して、画像の埋め込みと対応するキャプションの埋め込みの間のコサイン類似性を最大化しました。これにより、ゼロショット分類の自然な機能が得られました。CLIP は、微調整を行わずに、27 の異なる画像分類データセットに対して強力な分類パフォーマンスを実証しました。

生成ベースの手法

ジェネレーティブAIは、ゼロショット学習の問題に対する代替ソリューションを提供します。それは、補助情報を使用してサンプルデータを生成することです。

生成ベースの手法では、目に見えないクラスの意味論的表現を活用してサンプルを生成し、ラベル付けすると、学習問題を標準の教師あり学習に変換するために使用できます。ラベルのないサンプル (または密接に関連するクラスの表現) はサンプルの合成に役立ちますが、ゼロショット設定では、このプロセスは主に意味論的な記述に依存することがよくあります。

OpenAIは、DALL-E 3テキストから画像への生成モデルのリリースペーパーで、合成キャプションが「地上検証データ」のキャプションと比較してモデルのパフォーマンスを向上させると指摘しています。⁵

変分オートエンコーダー
変分オートエンコーダー（VAE）は、潜在変数のパラメーター化された分布としてトレーニング・データの潜在表現を学習する自己教師あり型生成モデルです。言い換えれば、データクラスを静的な意味の埋め込みとしてではなく、潜在空間内の確率分布としてエンコードすることを学習します。その後、デコーダを使用して、その潜在空間からランダム・サンプルを生成できます。条件付きVAE（CVAE）は、選択された変数の確率を最大化することによって、合成されたサンプルの特性を制約することができます。

敵対的生成ネットワーク（GANS）
GANは、敵対的なゼロサム・ゲームで共同トレーニングされた 2 つのニューラル・ネットワークで構成されます。1つは意味属性とガウス・ノイズを使用してサンプルを合成する生成元、もう1つはサンプルが本物か「偽」（つまり、生成元によって合成されたもの）かを判断する弁別子です弁別子からのフィードバックは、弁別子が本物のサンプルと偽のサンプルを区別できなくなるまで、生成元をトレーニングするために使用されます。2014年に発表されたGANに関する最初の論文以降、このプロセスを改善し安定させるために多くの改良が加えられてきました。

VAEGAN
VAEとGANには両方とも次のような欠点があります。

VAE は安定していますが、サンプルが潜在空間から再構成される方法の性質により、ぼやけた画像が生成される傾向があります。
GAN は高品質の画像を生成することを学習しますが、2 つの別々の異なるトレーニングプロセスを統合する必要があるため、不安定になりがちです。

両方のプロセスを改善し、安定させるために多くの改良策が編み出されてきましたが、これら2つのモデル・アーキテクチャーを組み合わせることで、ゼロショット設定で有望な結果が得られました。⁶

大規模言語モデル（LLM）
LLMは、ラベル付きサンプルの合成にも使用できます。たとえば、Llama 2のような自己回帰モデルを使用して、テキスト分類タスク用のSentence-BERTなどの双方向言語モデルのトレーニングに使用できるサンプルを生成します。

脚注

^{すべてのリンクはibm.com外部にあります}¹ 「構成要素による認識：人間のイメージ理解の理論」、 Psychological Review vol.94（115–147ページ)、1987
² 「マルチモーダル記述を使用したゼロショット学習」、コンピューター・ビジョンおよびパターン認識（CVPR）ワークショップに関するIEEE/CVF会議議事録、2022 年
³ 「自己蒸留を使用したデータ効率的な言語教師ありゼロショット学習」、arXiv、2021年4月18日
⁴ 「CLIP：テキストと画像の接続」、 OpenAI、2021年1月5日
⁵ 「より良いキャプションによる画像生成の改善」、 OpenAI、2023年
⁶ 「Zero-VAE-GAN：一般化およびトランスダクティブ・ゼロショット学習のための目に見えない機能の生成」、 PubMed、2023年1月13日