Llama 2とは

公開日：2023年12月19日
寄稿者：Dave Bergmann

Llama 2とは

Llama 2は、Meta AIによって2023年にリリースされた、事前にトレーニングされ、ファイン・チューニングされた大規模言語モデル（LLM）のファミリーです。研究および商用目的に無料で利用可能なLlama 2のAIモデルは、テキスト生成からプログラミングコードまで、さまざまな自然言語処理（NLP）タスクを実行できます。

LLaMa 2モデル・ファミリーは、ベースとなる基盤モデルとファイン・チューニングされた「チャット」モデルの両方で提供されています。2022年に研究機関のみにケースバイケースでアクセスを許可する非商用ライセンスの下でリリースされた、オリジナルのLLaMa 1の後継モデルです。以前のモデルとは異なり、Llama 2モデルは、AI研究と商用利用のいずれでも無料で利用可能です。

Meta社のLlamaモデルは、生成AIエコシステムの民主化において、重要な役割を果たすことを目指しています。Llama 2の研究論文（ibm.com外部へのリンク）で述べられているように、自己教師あり学習による自己回帰LLMの事前トレーニングの方法論は、今では比較的単純でよく理解されていますが、このプロセスに伴う膨大な計算要件により、最先端のLLMの開発は少数の主要組織に限定されていました。OpenAI社のGPT、Anthropic社のClaude、Google社のBARDのような最先端のLLMのほとんどは、プロプライエタリな（そして大規模な）クローズド・ソース・モデルであるため、これらのモデルがどのように機能するのか、なぜ機能するのか、そして人類の利益とその開発をよりよく整合させるにはどうすればよいのか、といったことを理解する助けとなるような一般向けのAI研究へのアクセスは著しく制限されています。

Llamaプロジェクトは、コードとモデル・ウェイトを自由に利用できるようにすることに加えて、パラメータ数を増やすことではなく、より小さなモデルのパフォーマンスを向上させることに重点を置いています。最も有名なクローズド・ソース・モデルには数千億のパラメーターがありますが、Llama 2モデルでは、70億（7B）、130億（13B）、700億（70B）のパラメーターが提供されています。

これにより、スタートアップ企業や研究コミュニティーメンバーのような小規模な組織は、極めて高額な計算時間やインフラ投資を必要とせずに、Llama 2モデルやAIコミュニティーによって開発されたLlamaベース・モデルのローカル・インスタンスを展開することができます。

詳細はこちら：IBM Watsonx AIおよびデータ・プラットフォームでLlama 2が利用可能に

Llama 2とLlaMa 1

Llama 2の研究論文では、新世代のAIモデルが元のLLaMaモデルに対して提供する、いくつかの利点について詳述されています。

より長いコンテキスト長：Llama 2モデルは、LLaMa 1の2倍である4,096トークンのコンテキスト長を提供しています。コンテキスト長（またはコンテキスト・ウィンドウ）は、モデルが推論（つまり、テキストの生成または進行中の会話）中に「記憶できる」トークンの最大数を指します。これにより、複雑になっても、より一貫性のある、流暢な自然言語の交換が可能になります。
アクセシビリティの向上： LLaMa 1は、研究用としてリリースされましたが、Llama 2はあらゆる組織（アクティブ・ユーザーが7億人未満）が利用できます。
よりロバストなトレーニング： Llama 2は、40%多いデータで事前にトレーニングされ、ナレッジ・ベースと文脈理解が強化されています。さらに、LLaMa 1とは異なり、Llama 2のチャットモデルは、人間のフィードバックからの強化学習（RLHF）を用いてファイン・チューニングされており、モデルの回答を人間の期待に近づけるのに役立っています。

AIのためのデータ・ストア

データレイクハウス戦略をデータ・アーキテクチャーに統合することで、AIの拡張やコスト最適化の機会など、そのパワーを実感してください。

関連コンテンツ

IDCレポートを読む

Llama 2はオープンソースですか？

Meta社はLlama 2モデルのスターティング・コードとモデル・ウェイトを、研究および商業目的に自由に利用できるようにしていますが、そのライセンス契約におけるある制限が、「オープンソース」と呼ぶにふさわしいかどうかについての議論を引き起こしています。

「オープンソース」は、ソースコードが無償で配布されるソフトウェア（またはその他のプログラミングツール）を指す言葉として口語的に使われることが多いが、実際にはオープンソース・イニシアティブ（OSI）が管理する正式な呼称です。OSIは、当該ライセンスが公式のオープンソースの定義（OSD）（ibm.com外部へのリンク）に記載されている10の要件を満たしていると判断した場合にのみ、指定されたソフトウェア・ライセンスを「OSI認定」と認定します。

OSIのStefano Maffulli事務局長の声明によると、「OSIは、Meta社が強力なAIシステムへのアクセスの障壁を下げていることを嬉しく思う。残念なことに、この大手テック企業は、LLaMa 2が「オープンソース」であるという誤解を生んでしまいましたが、そうではありません」¹

この矛盾は、Llama 2ライセンス契約の2つの側面から生じています。

月間アクティブ・ユーザー数が7億人を超える組織は、Meta社にライセンスをリクエストする必要があります（Meta社独自の裁量により付与されます）。²
「利用規約」では、暴力、犯罪行為、人間になりすましたモデルの使用を禁止しており、法的および道徳的制限が設けられています。

これらの制限は、OSDの2つの点と矛盾します。

ポイント5：「ライセンスは、いかなる個人またはグループに対しても差別的であってはならない」³
ポイント 6: 「ライセンスは、特定の分野でのプログラムの使用を制限してはならない」³

Llama 2のオープンな精神と「オープンソース」の技術的な定義を満たしていないことの両方を認めるために、技術コミュニティでは「オープン・アプローチ」という言葉も使われています。⁴

Llama 2はどのような仕組みですか？

Llama 2のベース・モデルは、特定のユースケースに合わせてファイン・チューニングすることを目的とした、事前トレーニング済みの基盤モデルですが、Llama 2のチャット・モデルはすでに対話用に最適化されています。

Llama 2のベース・モデル

Llama 2は、変換器ベースの自己回帰因果言語モデルのファミリーです。自己回帰言語モデルは、一連の単語をインプットとして受け取り、次の単語を再帰的にアウトプットします。

自己教師あり事前トレーニングでは、LLMはラベル付けされていない膨大なコーパスから抽出されたサンプル文の冒頭を提供され、次の単語を予測するタスクを課されます。グラウンド・トゥルース（実際の次の単語）とそれ自身の予測の乖離を最小限に抑えるためのモデルのトレーニングにおいて、モデルはトレーニング・データ内の言語的および論理的パターンを複製することを学習します。この研究論文では、具体的なデータソースの詳細は省略されていますが、Llama 2は、一般に入手可能なソースから、2兆個のトークン（変換器ベースのニューラル・ネットワークが言語処理に使用する、数値で表現された単語、単語パーツ、フレーズ、その他の意味的断片）を使ってトレーニングしたと記載されています。

根本的には、ベースの基盤モデルは実際にプロンプトに回答ように事前にトレーニングされていません。つまり、文法的に一貫した方法でテキストをプロンプトに追加します。すぐに使える基盤モデルは、「クッキーの焼き方を教えてください」」というプロンプトに対して、「ホリデー・パーティーのために」と回答するかもしれません。対話や指示の遵守、クリエイティブ・ライティングなどの特定の用途向けに基盤モデルをトレーニングするには、教師あり学習や強化学習などの手法による、さらなるファイン・チューニングが必要です。

代わりに、ベースのLlama 2モデルは、特定の目的に特化したモデルを構築するための基盤として機能することを目的としています。これまで、Llama 2（元のLLaMa）モデルは、次のような複数の著名なオープンソースLLMのベースとして使用されてきました。

Alpaca：スタンフォード大学の研究者による、指示に従うようにファイン・チューニングされたLLaMa 7Bのバージョン。特に、コンピューティング・リソースのコストがわずか600米ドルであるにもかかわらず、GPT-3.5に匹敵する結果を達成しました。⁵
Vicuna：LMSYS Orgのチャットアシスタントモデル。ShareGPTユーザーの会話に、Llama 2 13Bをファイン・チューニングしてトレーニングさせたもの（ibm.com外部へのリンク）。わずか300米ドルのトレーニング・コストで、90％以上のケースでAlpacaを上回りました。⁶
Orca：Llama 2のファイン・チューニングされたバージョンで、Microsoftが「教師-生徒」のスキームを使用してトレーニングしたもので、より大規模で強力なLLMを使用して、より小さなモデルが従うべき有用な推論動作の例を生成します。⁷
WizardLM：LLMsを用いて、大量の合成命令データを作成する方法であるEvol-Instructでファイン・チューニングされたWizardLMは、29のうち17のスキルでChatGPTの90%以上のパフォーマンスを達成しました。⁸

Llama 2のチャット・モデル

Llama-2チャット・モデルは、ChatGPTで使用される特定のGPTモデル・バージョンと同様に、対話型のユースケース向けにファイン・チューニングされています。

教師ありファイン・チューニング（SFT）は、チャットボットまたはバーチャル・アシスタント環境において、ユーザーが期待する形式で回答を生成するために、事前にトレーニングされたLlama 2のベース・モデルを準備するために使用されました。一連の教師あり学習タスクでは、（プロンプト、回答）という注釈付きの、対話形式のやり取りのラベル付けされたペアが、与えられたプロンプトに対する自身の回答と、ラベル付きデータによって提供された回答例との乖離を最小化するモデルのトレーニングに使用されます。したがって、モデルは例えば、「クッキーの焼き方を教えてください」というプロンプトに対する適切な回答は、単に文を完成させるのではなく、クッキーを焼く実際の指示を提供することであることを学習します。

論文では、何百万ものラベル付きサンプルを使用するのではなく、「少数だが高品質のサンプル」を使用することで結果が改善されたと述べられており、Meta AIが27,540個の注釈付きサンプルを収集したことを指摘しています。

SFTに続いて、Meta社は人間のフィードバックによる強化学習 （RLHF）を用いて、チャット・モデルの振る舞いを人間の好みや指示にさらに近づけました。RLHFでは、人間からの直接のフィードバックで「報酬モデル」をトレーニングし、人間が好む反応のパターンを学習します。報酬モデルの予測（特定の回答が人間に好まれるかどうか）をスカラー報酬信号に変換することにより、報酬モデルは強化学習を通じて、Llama-2チャットをさらにトレーニングするために使用されます。

人間のフィードバックを収集するには、さまざまな方法や形式があります。Meta AIは、人間のアノテーターにプロンプトを書いてもらい、Metaが提供する基準に基づいて、Llama 2の2つの異なる亜種によって生成された2つのモデルの回答から選択するように求められるという、単純なバイナリ比較の方法を用いました。また、報酬モデルがこれらの選択肢を適切に重み付けできるように、アノテーターは、選択した回答を「「とてもよい」、「ややよい」、「わずかだけよい、またはわからない」など、他の回答と比較してどの程度よいかを評価するよう求められました。

人間の好みに基づいて、2つの別々の報酬モデルをトレーニングしました。1つは有用性について最適化され、もう1つは安全性について最適化されました（つまり、有毒で憎しみに満ちた反応、または暴力や犯罪行為の助長に使用される可能性のある回答を避ける）。RLHFでLLMモデルの重みを更新するために通常使用されるアルゴリズムである近接政策最適化 （PPO）に加えて、Meta社は拒絶サンプリング（ibm.com外部へのリンク）を用いて、Llama-2-chat-70Bを更新しました。

Code Llama

Llama 2上に構築されたCode Llamaは、コードベースと自然言語ベースのプロンプトの両方からコード（およびコードに関する自然言語）を生成できるようにファイン・チューニングされています。Llama 2のベース・モデルとチャット・モデルのリリース直後に公開され、研究および商用利用は無料です。

Python、C++、Java、PHP、JavaScriptなどの一般的なプログラミング言語をサポートし、7B、13B、および34Bパラメータのモデル・サイズで利用可能で、最大100,000トークンのコンテキスト長を提供しています。2つの追加バリエーションであるCode Llama - PythonとCode Llama - Instructは、それぞれPython（およびPyTorch）と命令に従うようにファイン・チューニングされています。

Llama 2とクローズド・ソース・モデルの比較

クローズド・ソースの競合他社と比較して、Llama 2モデルは安全性や事実の正確さなどの面で優れています。Llama 2は、はるかに大規模なモデルの全機能には及ばないかもしれませんが、そのオープンな可用性と優れた効率に利点があります。

Llama 2をOpenAI社、Anthropic社、Google社などの競合他社の主力プロプライエタリ・モデルと比較する場合、規模を考慮することが重要です。クローズド・ソース・モデルは、そのアーキテクチャーの詳細が常にすべて開示されているわけではありませんが、入手可能な情報は、これらがすべて、Llama 2モデルで最大の700億パラメータを大幅に超えていることを強く示唆しています。

GPT-3には、1750億のパラメータがあります。
GPT-4はには、1兆のパラメーターがあると推定されています。⁹
Google社のPaLM 2のパラメーター数は、3400億と報告されています。¹⁰
Anthropic社は、Claudeモデルのパラメーター数を公表していませんが、最近の論文では、Claude 2の1,750億パラメーター・バージョンの存在が示唆されています。¹²

人間の評価
Llama 2の研究論文によると、人間の評価者は、ChatGPTの標準モデルであるGPT-3.5.-turbo-0301の回答よりも、Llama-2-chat 70Bの回答を好みました。Llama 2の回答の勝率は36%で、引き分けが31.5%でした。2番目に大きいPaLMモデルであるPaLM Bisonと比較して、70Bの勝率は50%以上でした。

安全性
Meta社のテストでは、7B、13B、および70BのLlama 2モデルはすべて、PaLM Bisonよりも安全性違反の割合が大幅に低く、PaLMの27%と比較して、3%および4%であり、ChatGPTの7%よりも低いものでした。これは、チャットボットからの有毒、憎悪、または扇動的な言葉が重大な結果をもたらす可能性がある企業のユースケースにおいて、大きな強みとなります。

プライバシーと効率
大規模なクローズド・ソース・モデルに対する小規模なオープン・モデルならではの利点は、企業がローカル・モデル・インスタンスを実行する自由と、インフラストラクチャーやクラウド・コンピューティングに大規模な投資をすることなく実行できる優れたコスト効率にあります。ローカル・モデルを実行することで、商用サーバーにロードされることなく、またクローズド・ソース・モデルの将来のトレーニングに使用される可能性もなく、独自のコード、トレーニングの修正、独自のデータを使用して、モデルのパフォーマンスをファイン・チューニングすることができます。さらに、7Bや13Bなどの小さいモデル・サイズにより、処理能力が制限されているモバイル・アプリなどの環境でよりスムーズなパフォーマンスを実現できます。

Llama 2の使用方法

Llama 2には独自の専用APIはありませんが、複数のプロバイダーを通じてアクセスできます。

Llama-2-13B-chatとLlama-2-70B-chatは、IBMとHugging Face社のパートナーシップにより、 watsonxで利用できる多くの基盤モデルの一つです。
Llama 2のモデル・ウェイトとスターティング・コードは、Githubから直接ダウンロード可能です。Meta社は、Llama 2の説明、デモ、および「レシピ」も提供しています（ibm.com外部へのリンク）。モデルは、PyTorchやLangChainなどのオープンソースの機械学習フレームワークで実装できます。
Llama 2は、Hugging Face社などのオープンソースプロバイダーや、Microsoft Azure、Amazon Sagemaker、Bedrockなどのエンタープライズ・プロバイダーのほか、多くのクラウドベースのスタートアップ企業から入手可能です。

脚注