IBM Data and AI

プロンプト・チューニングとは

記事をシェアする:

プロンプト・チューニングは、モデルの再学習や重みの更新を行うことなく、AI基盤モデルを新しい下流タスクに適応させる効率的で低コストな方法です。

AIクリエイターのための次世代エンタープライズ・スタジオとして、watsonx.aiがどのように組織の価値創造に貢献できるかをご紹介します。

基盤モデルは、企業向けAIアプリケーションの新しい波の到来を告げるものです。これらの大規模で再利用可能なモデルは、インターネットの膨大な知識に基づいて事前学習されているため、法的契約の分析や金融文書の不正の検出などのためにカスタマイズすることが容易になっています。

最近まで、訓練済みのモデルを特殊なタスクに転用するためにはファイン・チューニング(微調整)が最適な方法でした。全く新しいモデルを一から学習するのではなく、対象となるタスクのデータを集めてラベル付けし、モデルをファイン・チューニングするのです。しかし、基盤モデルがどんどん大きくなるにつれ、よりシンプルでエネルギー効率に優れた手法、プロンプト・チューニングが登場しました。

プロンプト・チューニングでは、タスクに応じたコンテキストを与えるために、最適な手がかり(あるいはフロントエンド・プロンプトとも呼ばれます)をAIモデルに送り込みます。プロンプトには、人間が追加で入力する言葉や、AIが生成した数値をモデルのエンベディング層に導入するものがあります。クロスワードパズルのヒントのように、どちらのプロンプトもモデルを望ましい意思決定や予測に導きます。プロンプト・チューニングにより、データが限られている企業でも、巨大なモデルを狭いタスクに合わせて調整することができます。また、モデルの数十億(または数兆)もの重み、つまりパラメーターを更新する必要もありません。

AIモデルを再学習せずに再デプロイすることで、コンピューティングとエネルギーの使用量を少なくとも1,000倍削減でき、数千ドルを節約できると、IBMのExploratory AI Researchの責任者でMIT-IBM Watson AI Labの共同ディレクターであるDavid Coxは述べています。「プロンプト・チューニングを使えば、特定のニーズに合わせて強力なモデルを迅速に準備することができます」と彼は述べています。「そして、ユーザーはより速く次の行動を始めたり、実験したりすることができます」

プロンプト・チューニングは大規模な言語モデルに端を発しますが、その後、音声やビデオなど他の系列データ型を扱うトランスフォーマーのような他の基盤モデルにも対象を拡大しました。プロンプトは、テキストの断片、短い音声、静止画像や動画のピクセルのブロックなどであることがあります。

MIT-IBMラボのプロンプト・チューニングの専門家であるIBMのRamewsar Pandaは、「これは、これらの大規模なモデルから知識を抽出するための高速かつ持続可能な方法です」と述べています。「私たちはモデルを変更しません。モデルは固定したものとして扱うのです」

学習データなしで、特定タスクのために先に与える手がかり

当初、プロンプトはプロンプト・エンジニアリングと呼ばれる手作業で設計されていました。例えば、ある言語モデルを翻訳タスクに適応させたいとします。その場合、言語モデルには、対象となるタスクの説明やいくつかの例文を与えます。例えば、「英語からフランス語に翻訳してください」に続けて、「cheese」というプロンプトを与えます。そうすると、モデルは予測値として「fromage」と出力します。手作業で書いたこのプロンプトは、フランス語の単語をメモリから取り出すための準備となっています。もしタスクがもっと難しければ、もっと長いプロンプトが必要になるかもしれません。

プロンプト・エンジニアリングは、OpenAIのGPT(Generative Pretrained Transformer)という、これまでの言語モデルの10倍以上の大きさの巨大なモデルのリリースによって登場しました。2020年の論文で、OpenAIの研究者は、GPTの後継であるGPT-3の規模が1750億パラメーターであることを示し、推論時に導入したわずかな単語だけで専門的なタスクを実行できることを示しました。GPT-3は再学習なしで、ラベル付きデータで微調整されたモデルとほぼ同等の性能を発揮しました。

手作業で作られたプロンプトは、AIにより設計され、もっと優れた、数字の羅列で構成されているプロンプトにすぐに取って代わられました。翌年の論文で、Googleの研究者は、AIが設計したいわゆる「ソフト」プロンプトが、人間が設計した「ハード」プロンプトを凌駕することを紹介しました。

同じ頃、スタンフォード大学の研究者たちは、モデルが次々とタスクを学習することを可能にする、もう一つの自動プロンプト設計手法であるプリフィックス・チューニングを発表しました。プリフィックス・チューニングは、ソフトプロンプトとディープ・ラーニングモデルの層に注入されたプロンプトを組み合わせて、柔軟性を高めています。プロンプト・チューニングの方が効率的ですが、どちらの手法もモデルを固定し、高価な再学習を省略する点は共通です。

ハードプロンプトとは異なり、AIが設計したソフトプロンプトは、人間には言葉や画像として理解できるものではありません。各プロンプトは、より大きなモデルから知識を抽出したエンベディング(数字の羅列)で構成されています。ハイレベルなものからタスクに特化したものまで、プロンプトは追加学習データの代用として機能します。最近、研究者たちは、優れた言語分類器のプロンプトは、数百から数千の追加データポイントの価値があると推定しています

プロンプト・チューニングのひとつの欠点は、解釈可能性に欠けることです。AIは与えられたタスクに最適なプロンプトを発見しますが、なぜそのエンベディングを選択したのかを説明することができません。ディープ・ラーニングモデルと同様、ソフトプロンプトも不透明なのです。

「プロンプトを学習することはできても、モデルがどのように役立っているかはほとんどわかりません」とPandaは言います。「まだ謎があるのです」

プロンプト・チューニングの新たな応用

基盤モデルは創薬や材料開発、自動車マニュアルなどの技術文書の解釈など、企業における新たな用途を見出しており、プロンプト・チューニングもそれに合わせて進化しています。

そのひとつがマルチタスク学習です。基盤モデルは、顧客の質問に答えたり、オンラインレビューでネガティブコメントを特定したりと、しばしば素早くタスクを切り替える必要があります。そこで、研究者は、タスクごとに独自のプロンプトを設計するのではなく、簡単に再利用できる普遍的なプロンプトを作成する方法を発見しました。

「この手法は、複数のプロンプトに対してマルチタスク転移学習を適用しているものだと考えてください」とPandaは言います。「タスクに共有される知識を集約した1つのプロンプトを学習することで、モデルを素早く適応させることが可能になります」

Pandaと彼の同僚は、International Conference on Learning Representations (ICLR)で発表予定の論文で、MPT (Multi-task Prompt Tuning)手法が他の手法を上回り、さらにタスク固有のデータでファイン・チューニングしたモデルよりも優れていることを示しました。タスクに特化した20億のパラメーターを持つモデルを再学習するために数千ドルを費やす代わりに、MPTでは100ドル以下でモデルをカスタマイズできる、とPandaは述べています。

また、AIモデルが新しいタスクや概念を継続的にオンザフライで学習していきながら、その場で順次プロンプトを見つけていくようにするというのも、今後の研究課題です。新しい知識を得るには新しいデータに基づいてモデルを更新する必要がありますが、時に古い知識が上書きされて失われることがあります。これを破局的忘却と言います。

IBMの研究者は、arXivのプレプリント論文で、CODA-Promptと呼ばれる技術により、イラストを分類するといったタスクの後に、絵画や写真を分類するタスクを学習するといった、これまでに見たことのない連続した複数のタスクに対してのプロンプトを発見し、しかもモデルが最初に学習した内容を忘れることがないという実験結果を発表しました。

このような継続的な学習のための柔軟なプロンプトを使えば、誤りが見つかったときにその都度修正することができるので、データを保持することでプライバシー法に抵触してしまうということがなくなります。「ユーザーとの対話を行ったチャット・セッションの中に間違いが見つかったような場合に、CODA-Promptは、その個人データを保持していなくても誤りを修正することができます」と、この技術を共同開発したMIT-IBMラボのIBM研究員、Leonid Karlinskyは言います。

最後に、プロンプト・チューニングは、アルゴリズムのバイアスを緩和するための迅速かつ低コストのツールとしても有望視されています。AIモデルは現実世界のデータで訓練されるため、必然的に社会のバイアスを吸収してしまい、医療から雇用まであらゆる場面で不公平を永続させたり悪化させたりするような意思決定をしてしまうことがあります。IBMの研究者は最近、2022年のNeurIPSカンファレンスで、AIが設計したプロンプトを使用して大規模な言語モデルや画像処理モデルにおける人種や性別のバイアスを打ち消すことを目的とした2つの論文を発表しました。

そこで発表された手法の1つであるFairIJは、モデルの学習データセットの中で最もバイアスを含んだデータポイントを特定し、モデルの元のプロンプトにプロンプトを追加することによって、モデルにそれらのデータを除外するようにさせます。給与予測タスクでの実験では、FairIJでチューニングされたモデルは、バイアス軽減のための他のいくつかの主要な方法よりも正確でバイアスの少ない結果を得ることができました。

もうひとつの手法、 FairReprogramは、美容雑誌で学習したAIに、元のプロンプトにプロンプトを追加することで、ジェンダーに配慮した学習と同等の性能を実現します。IBMの研究者は、金髪の女性だけを「女性」と誤って学習した分類器を調整するために、茶色い髪色の女性の写真に、AIが設計した黒いピクセルの境界線を追加しました。これらのピクセルを追加することによって、茶色い髪色の女性も女性であると概念を広げるよう、AIモデルを転向させることができました。

IBMのDavid Coxは、「プロンプト・チューニングは、大規模なモデルを新しいアプリケーションに合わせて調整するコストを削減するだけでなく、たとえばバイアスを緩和するといった目的で、モデルの挙動を修正することもできます」と言います。

「プロンプト・チューニングは、二兎を追って二兎を得ることを可能にします」と彼は言います。「問題を発見し、修正することが容易になると同時に、より速く、より持続的に、専門的なタスクにモデルを適応させることができるのです」

この記事は英語版IBM Researchブログ「What is prompt-tuning」(2023年2月15日公開)を翻訳し一部更新したものです。


関連情報

IBMのサービスとソリューション

More IBM Data and AI stories

データ分析者達の教訓 #18- データの向こうにある社会的背景や因果関係を洞察せよ

Data Science and AI, SPSS Modeler ヒモトク, アナリティクス...

こんにちは。IBM Data&AIでデータサイエンスTech Salesをしている西牧です。 このリレー連載ブログはSPSS Modelerの実際のユーザーで第一線で活躍するデータ分析者に、データ活用を進める上で ...続きを読む


法務・AIリスクのスペシャリスト三保友賀が語る「ダイバーシティー」 | インサイド・PwDA+7(後編)

Data Science and AI, IBM Sustainability Software

日本IBMにて法務、特にAI倫理・リスクのスペシャリストとして、そして同時にLGBTQ+コミュニティー*1やPwDAコミュニティー*2のアライとして積極的に活動している三保友賀さんにお話を伺いました。 前編での法務・AI ...続きを読む


法務・AIリスクのスペシャリスト三保友賀が語る「ダイバーシティー」 | インサイド・PwDA+7(前編)

Data Science and AI, IBM Sustainability Software

日本IBMにて法務、特にAI倫理・リスクのスペシャリストとして、そして同時にLGBTQ+コミュニティー*1やPwDAコミュニティー*2のアライとして積極的に活動している三保友賀さんにお話を伺いました。 <もくじ> 企業内 ...続きを読む