人間のフィードバックからの強化学習（RLHF）とは| IBM

公開日: 2023 年 11 月 10 日
寄稿者: Dave Bergmann

RLHFとは

人間のフィードバックからの強化学習（RLHF）は、「報酬モデル」を人間の直接フィードバックで訓練し、強化学習によって人工知能エージェントのパフォーマンスを最適化するために使用する機械学習手法です。

RLHF は、人間の好みからの強化学習とも呼ばれ、複雑で、明確に定義されていない、または指定するのが難しい目標を持つタスクに特に適しています。たとえば、数学的な用語で「面白い」を定義するアルゴリズム・ソリューションは非現実的（むしろ不可能）ですが、大規模言語モデル（LLM）によって生成されたジョークを人間が評価するのは簡単です。人間のフィードバックは、報酬関数に蒸留され、LLMのジョークを書く能力の向上に使用できます。

2017年の論文で、OpenAI社のPaul F. Christiano氏は、OpenAI社とDeepMind社の他の研究者とともに、Atari社のゲームやロボットの運動シミュレーションのような複雑なタスクを実行するAIモデルのトレーニングにおけるRLHFの成果について論じました¹。この画期的な進展を受け継ぐ形で、ビデオ・ゲームはその後もRLHFの重要な実験場となりました。2019年までに、RLHFでトレーニングされたAIシステムは、はるかに複雑なゲームで人間のトップ・プロ・プレイヤーを破るようになり、例えばOpenAI FiveはDota 2²、DeepMindのAlphaStarはStarCraft³で勝利を収めました。

おそらく最も重要なのは、OpenAIの2017年の論文で、その方法論、特にモデルの重みを更新するための近接政策最適化（PPO）アルゴリズムの導入が、必要な人間のフィードバックを収集し、抽出するコストを大幅に削減したことを指摘している点です。これにより、RLHFと自然言語処理（NLP）の分野との最終的な統合への道が開かれ、結果として得られた進歩により、LLMとRLHFの両方をAI研究の最先端に導くことができました。

言語モデルでのRLHFの使用を詳細に説明するコードは、2019年、OpenAIによて初めてリリースされました⁴。その後 2022年初めに、RLHFでトレーニングされたInstructGPTをリリースしました⁵。これは、GPT-3とGPT-3.5ターボの間のギャップを埋めるための重要なステップで、ChatGPTの立ち上げを後押ししたモデルです。

RLHFはそれ以来、OpenAI、DeepMind、Google ⁶ 、Anthropic の最先端のLLMのトレーニングに使用されています。 ⁷

AIガバナンスの活用で責任あるAIワークフローを構築

チームが責任あるAIを加速するのに役立つ構成要素とベスト・プラクティスについて説明します。

関連コンテンツ

基盤モデルについてのガイドに登録する

強化学習のしくみ

概念的には、強化学習（RL）は人間の学習方法を模倣することを目的としています。AIエージェントは、成功への強いインセンティブによって動機付けられ、試行錯誤を通じて総合的に学習します。

この戦略を実践するために、強化学習の数学的フレームワークは次のコンポーネントで構成されます。

状態空間

状態空間は、既知の変数と未知の変数の両方を含む、AIエージェントが行う可能性のある決定に関連する、当面のタスクに関する利用可能なすべての情報です。状態空間は通常、エージェントが決定を下すたびに変化します。

アクション・スペース

行動空間には、 AIエージェントが行う可能性のあるすべての決定が含まれます。たとえば、ボード・ゲームの場合、行動空間は離散的で明確に定義されています。行動空間は、特定の瞬間にAIプレイヤーが利用できるすべての正当な動きで構成されます。テキスト生成の場合、行動空間は膨大であり、LLMが利用できるトークンの「語彙」全体で構成されます。

報酬関数

報酬は、AIエージェントの動機となる成功または進歩の尺度です。ボード・ゲームなどの場合、成功（この場合はゲームに勝つこと）を定義するのは客観的で簡単です。しかし、「成功」の定義があいまいな場合、効果的な報酬関数を設計することは大きな課題となる可能性があります。数学的枠組みでは、このフィードバックは報酬信号、つまり正（または負）のフィードバックのスカラー定量化に変換される必要があります。

制約

報酬関数は、当面のタスクに負の報酬、つまり逆効果であるとみなされる行動に対するペナルティによって補うことができます。たとえば、自社のチャットボットによる冒とく的な言葉やその他の下品な言葉の使用を禁止したいとします。自動運転車モデルなら、衝突や車線逸脱にペナルティを科すことができます。

規程・ポリシー

ポリシーは本質的に、AI エージェントの動作を駆動する戦略または「思考プロセス」です。平易な数学用語では、ポリシー（「 π 」）は状態（「 s 」）を入力として受け取り、アクション（「 a 」）を返す関数です: π(s)→a。

RLアルゴリズムの目標は、最大の報酬を生み出すポリシーを最適化することです。深層強化学習では、ポリシーはニューラル・ネットワークとして表現され、学習過程で報酬関数に従って継続的に更新されます。AIエージェントは、人間と同じように経験から学習します。

従来のRLは、現実世界において多くの分野で目覚ましい成果を上げてきましたが、成功の明確な定義を確立するのが難しい複雑なタスクに対して効果的に報酬関数を構築するのは難しい場合があります。RLHFの主な利点は、正式に定義された目標の代わりに人間による肯定的なフィードバックによって、ニュアンスや主観を捉えることができることです。

RLHF（大規模言語モデルの場合）

RLHFの最も顕著な用途の1つは、特にチャットボットとしての使用において、LLMの関連性、正確さ、倫理を強化することです。

LLMは、すべての生成AIモデルと同様に、トレーニング・データの確率分布を複製することを目的としています。最近の進歩により、LLMはチャットボットのエンジンとして、あるいは汎用AIの推論エンジンとしての利用が進んでいますが、これらの言語モデルは学習データから学習したパターンを使用してプロンプトによって開始される所定のシーケンス内の次の単語を予測しているにすぎません。根本的なレベルにおいて、こうしたモデルは実際にはプロンプトに応答しません。プロンプトにテキストを追加しているのです。

非常に具体的な指示がなければ、言語モデルはユーザーの意図を理解する能力がほとんどありません。プロンプト・エンジニアリングは、LLMがユーザーのニーズに応じた応答をするために必要なコンテキストを提供するのに役立ちますが、チャットボットとのすべてのやりとりにプロンプト・エンジニアリングを要求するのは現実的ではありません。

さらに、すぐに使用できるLLMは、文法的に一貫した出力を生成するために従来の方法でトレーニングされていますが、「良い」出力を生成するようLLM をトレーニングするのは謎に満ちた分野です。真実、有用性、創造性、さらにはコード・スニペットを実行可能にするものなどの概念は、単語の意味や言語構造よりもはるかに文脈に依存します。

言語モデルを人間との対話に適したものにするため、データサイエンティストは人間のフィードバックによる強化学習に目を向けました。RLHFで強化されたInstructGPTモデルは、特に指示に従うことや事実の正確さを維持すること、モデルの幻覚を避ける点で、GPT-3以前のモデルを大幅に上回りました⁵。同様に、GPT-4 のリリース時に OpenAI によって発表された研究では、RLHFが敵対的な質問の精度を2倍にしたことが示されています。⁸

RLHFの利点は、より大きなトレーニングデータセットの価値を凌駕し、よりデータ効率の良いモデル開発を可能にします：OpenAIのラベラーは、InstructGPTの1.3Bパラメータ・バージョンの出力を、GPT-3^.5の1.75Bパラメータ・バージョンの出力よりも好んだと述べています。

RLHFの仕組み

RLHFを使用したLLMのトレーニングは、通常、次の4つのフェーズで行われます。

事前トレーニングモデル

RLHFは通常、エンド・ツー・エンドのトレーニング方法としてではなく、事前トレーニングされたモデルを微調整して最適化に使用されます。たとえば、InstructGPTはRLHFを使用し、既存のGPT（Generative Pre-trained Transformer）モデルを強化しました。InstructGPTのリリース発表の中で、OpenAI は、「このプロセスについての 1 つの考え方は、GPT-3 がすでに備えていたプロンプト・エンジニアリングだけでは引き出すことができなかった機能を『解放する』ということ」としています。 ⁵

事前トレーニングは、依然としてRLHFの中で最も多くのリソースを必要とするフェーズです。OpenAI は、InstructGPTのRLHFトレーニング・プロセスには、GPT-3の事前トレーニングに必要な計算とデータの2%未満が必要であると指摘しています。

教師ありファインチューニング

明示的強化学習を開始する前に、教師ありファインチューニング（SFT）を使用してモデルを準備し、ユーザーが期待する形式で応答を生成します。

前述したように、LLMの事前学習プロセスは、モデルの事前学習中に学習された言語パターンを再現することで、ユーザーのプロンプトから始まる一連の流れの中で次の単語を予測するという、完了のためにモデルを最適化します。ユーザーの要望の仕方によっては、LLMはユーザーの希望どおりにシーケンスを完了しないことがあります。例えば、「履歴書の作り方を教えてください」というプロンプトがあった場合、LLMは「Microsoft Wordを使ってください」と答えるかもしれません。答えの文章が完成しますが、ユーザーの目的には合っていません。

そのためSFTでは、教師付き学習を使用して、さまざまな種類のプロンプトに適切に反応するモデルをトレーニングします。人間の専門家は、形式（プロンプト、応答）に従ってラベル付きの例を作成し、質問応答や要約、翻訳など、さまざまなユースケースのプロンプトに応答する方法を示します。

このデモンストレーション・データは強力ですが、生成には時間と費用がかかります。DeepMindは、特注の新しい例を作成するのではなく、「一般的な書面による対話形式（インタビュー記録形式）に基づくフィルタリングの発見的教授法」を適用して、MassiveWebデータセット内から適切なプロンプトやレスポンス例のペアを分離するというアプローチを導入しました^9。

報酬モデルのトレーニング

人間のフィードバックが強化学習の報酬関数を強化するには、人間の好みを数値的な報酬信号に変換する報酬モデルが必要です。人間の主観的な価値観を適切に定義するための数学的・論理的な公式は存在しないため、効果的な報酬モデルを設計することはRLHFにおいて非常に重要なステップです。

この段階の主な目的は、人間の評価者からの直接的なフィードバックで構成される十分なトレーニング・データを報酬モデルに提供することです。人間の嗜好がさまざまな種類のモデル反応に報酬を割り当てる方法の模倣の学習ができるようにします。これにより、人間が介入しなくても、オフラインでトレーニングを継続できます。

報酬モデルは、一連のテキストを取り込み、人間のユーザーがそのテキストにどれだけ報酬を与える（またはペナルティを与える）かを数値的に予測するスカラー報酬値を出力する必要があります。この出力がスカラー値であることは、報酬モデルの出力がRLアルゴリズムの他のコンポーネントと統合されるために不可欠です。

人間の評価者に各モデルの応答についての意見を、1（最悪）から10（最高）のスケールで評価するなどスカラー形式で単純に表現するのは最も直観的であるように思えるかもしれません。しかし、すべての人間全員の評価値を相対的に一致させるのは非常に困難ですし、人間の評価者が何をもって「良い」または「悪い」と反応しているのか独自に調整することはできません。これにより、直接スカラー評価にノイズが多くなり、調整が困難になる可能性があります。

代わりに、評価システムは通常、さまざまなモデル出力に対する人間のフィードバックの比較で構築されます。一般的な方法では、同じプロンプトに応答する2つの異なる言語モデルの出力のような2つの類似したテキスト・シーケンスを、ユーザーに直接対決で比較させ、その後、Elo評価システムを使用して、生成されたテキストの各ビットの相対的な集計ランキングを生成します。単純なシステムでは、ユーザーが各出力を「高評価」または「低評価」し、相対的な好感度によって出力が格付けされる場合があります。より複雑なシステムでは、ラベル作成者に全体的な評価を提供し、さらに、各回答の欠陥に関するカテゴリ別の質問に回答するよう依頼したのち、このフィードバックをアルゴリズム的に集計して重み付けされた品質スコアを作成する場合があります。

どのランキング・システムの結果も、最終的にはスカラー報酬信号に正規化され、報酬モデルのトレーニングに通知されます。

ポリシーの最適化

RLHFの最後のハードルは、AIエージェントのポリシーを更新するために報酬モデルをどのように、またどの程度使用すべきかを判断することです。RLモデルを更新する報酬機能に使用される最も成功したアルゴリズムの1つは、近接ポリシー最適化（PPO）です。

損失関数を最小化し、可能な限り誤差を小さくするために勾配降下を使用する多くの機械学習やニューラル・ネットワークモデル・アーキテクチャとは異なり、強化学習アルゴリズムは、勾配上昇を使用し、報酬を最大化することが多くあります。

ただし、ガードレールなしで報酬関数でLLMをトレーニングすると、言語モデルの重みが大幅に変更され、報酬モデルを「ゲーム化」しようとして意味不明な出力が発生する可能性があります。PPOは、各トレーニング反復で更新できるポリシーの量を制限することにより、AIエージェントのポリシーを更新するより安定した手段を提供します。

まず、初期モデルのコピーが作成され、そのトレーニング可能な重みが固定されます。PPOアルゴリズムは [1- ε , 1+ ε ] の範囲を計算します。ここでεは、新しい（更新された）ポリシーが古い（凍結された）ポリシーからどの程度逸脱することが許容されるかを大まかに決定するハイパーパラメーターです。次に、確率比、つまり、古いポリシーによって特定のアクションが実行される確率と、新しいポリシーによってそのアクションが実行される確率の比を計算します。確率比が 1+ εより大きい（または 1- ε未満）場合、モデル全体を不安定にする可能性のある急激な変化を防ぐために、ポリシーの更新の大きさがクリップされることがあります。

PPOの導入により、以前のトラスト・リージョン・ポリシー最適化（TRPO）に対する魅力的な代替手段が提供されました。TRPOは同様の利点を提供しますが、PPOよりも複雑で計算コストが高くなります。Advantage Actor-Critic（A2C）などの他のポリシー最適化フレームワークも実行可能ですが、PPOの方がシンプルでコスト効率の高い方法論として好まれる傾向にあります。

RLHFの限界

RLHF モデルは、ロボット工学やビデオ・ゲームからNLPまでの複雑なタスクのAIエージェントのトレーニングにおいて目覚ましい結果を示していますが、RLHFの使用には限界がないわけではありません。

人間の嗜好データは高価。人間の生の声を収集する必要があるので、これはコストのかかるボトルネックとなってRLHFプロセスのスケーラビリティを制限する可能性があります。Anthropic¹⁰とGoogle¹¹の両社は、AIフィードバックからの強化学習 （RLAIF）を提案しており、人間のフィードバックの一部またはすべてを、別のLLMがモデルの応答を評価することで置き換えることで、RLHFに匹敵する結果を獲得しています。

人間の意見は非常に主観的。 ヒューマン・アノテーターは、事実関係だけでなく、「適切な」モデルの動作とは何かといった点についても意見が異なることが多く、何をもって「高品質」のアウトプットというのかという点で合意を確立することは、不可能ではないにしても困難です。したがって、人間の意見の不一致は、モデルのパフォーマンスを判断するための真の「グラウンド・トゥルース」の実現を妨げます。

人間の評価者は誤りを犯しやく、場合によっては意図的に敵対的で悪意のある場合もる。本心から反対意見にせよ意図的な学習プロセス荒らしにせよ、モデルに対する人間のガイダンスは常に誠意を持って提供されるとは限りません。Wolfらによる2016年の論文では、有害な行動は人間とボットの相互作用の基本的な期待値であるべきだと仮定し、人間の入力の信頼性を評価する方法の必要性を示唆しました¹²。2022年、Meta AIは、「高品質のデータから最大の学習効率を得ると同時に、低品質で敵対的なデータに対して最大限に堅牢である」自動化手法を研究し、敵対的な人間の入力に関する論文（リンクは ibm.com 外）を発表しました。この論文では、さまざまな「トロール」の原型と、それらがフィードバック・データを歪めるさまざまな方法を特定しています。

RLHFには過剰適合とバイアスのリスクがある。人間のフィードバックが過度に狭い人口統計から収集されている場合、モデルがさまざまなグループで使用されたり、人間の評価者が特定のバイアスを持っている主題についてプロンプトを出されたりすると、パフォーマンスの問題が発生する可能性があります。

脚注