ビジネスを飛躍させるのは、あなたの仕事を知っている AI。
国内外の事例、新たなAIの取り組みをご紹介
Llama 2は、Meta AIによって2023年にリリースされた、事前にトレーニングされ、ファイン・チューニングされた大規模言語モデル(LLM)のファミリーです。研究および商用目的に無料で利用可能なLlama 2のAIモデルは、テキスト生成からプログラミングコードまで、さまざまな自然言語処理(NLP)タスクを実行できます。
LLaMa 2モデル・ファミリーは、ベースとなる基盤モデルとファイン・チューニングされた「チャット」モデルの両方で提供されています。2022年に研究機関のみにケースバイケースでアクセスを許可する非商用ライセンスの下でリリースされた、オリジナルのLLaMa 1の後継モデルです。以前のモデルとは異なり、Llama 2モデルは、AI研究と商用利用のいずれでも無料で利用可能です。
Meta社のLlamaモデルは、生成AIエコシステムの民主化において、重要な役割を果たすことを目指しています。Llama 2の研究論文(ibm.com外部へのリンク)で述べられているように、自己教師あり学習による自己回帰LLMの事前トレーニングの方法論は、今では比較的単純でよく理解されていますが、このプロセスに伴う膨大な計算要件により、最先端のLLMの開発は少数の主要組織に限定されていました。OpenAI社のGPT、Anthropic社のClaude、Google社のBARDのような最先端のLLMのほとんどは、プロプライエタリな(そして大規模な)クローズド・ソース・モデルであるため、これらのモデルがどのように機能するのか、なぜ機能するのか、そして人類の利益とその開発をよりよく整合させるにはどうすればよいのか、といったことを理解する助けとなるような一般向けのAI研究へのアクセスは著しく制限されています。
Llamaプロジェクトは、コードとモデル・ウェイトを自由に利用できるようにすることに加えて、パラメータ数を増やすことではなく、より小さなモデルのパフォーマンスを向上させることに重点を置いています。最も有名なクローズド・ソース・モデルには数千億のパラメーターがありますが、Llama 2モデルでは、70億(7B)、130億(13B)、700億(70B)のパラメーターが提供されています。
これにより、スタートアップ企業や研究コミュニティーメンバーのような小規模な組織は、極めて高額な計算時間やインフラ投資を必要とせずに、Llama 2モデルやAIコミュニティーによって開発されたLlamaベース・モデルのローカル・インスタンスを展開することができます。
Llama 2の研究論文では、新世代のAIモデルが元のLLaMaモデルに対して提供する、いくつかの利点について詳述されています。
Meta社はLlama 2モデルのスターティング・コードとモデル・ウェイトを、研究および商業目的に自由に利用できるようにしていますが、そのライセンス契約におけるある制限が、「オープンソース」と呼ぶにふさわしいかどうかについての議論を引き起こしています。
「オープンソース」は、ソースコードが無償で配布されるソフトウェア(またはその他のプログラミングツール)を指す言葉として口語的に使われることが多いですが、実際にはオープンソース・イニシアティブ(OSI)が管理する正式な呼称です。OSIは、当該ライセンスが公式のオープンソースの定義(OSD)(ibm.com外部へのリンク)に記載されている10の要件を満たしていると判断した場合にのみ、指定されたソフトウェア・ライセンスを「OSI認定」と認定します。
OSIのStefano Maffulli事務局長の声明によると、「OSIは、Meta社が強力なAIシステムへのアクセスの障壁を下げていることを嬉しく思う。残念なことに、この大手テック企業は、LLaMa 2が「オープンソース」であるという誤解を生んでしまいましたが、そうではありません」1
この矛盾は、Llama 2ライセンス契約の2つの側面から生じています。
これらの制限は、OSDの2つの点と矛盾します。
Llama 2のオープンな精神と「オープンソース」の技術的な定義を満たしていないことの両方を認めるために、技術コミュニティでは「オープン・アプローチ」という言葉も使われています。4
Llama 2のベース・モデルは、特定のユースケースに合わせてファイン・チューニングすることを目的とした、事前トレーニング済みの基盤モデルですが、Llama 2のチャット・モデルはすでに対話用に最適化されています。
Llama 2は、変換器ベースの自己回帰因果言語モデルのファミリーです。自己回帰言語モデルは、一連の単語を入力として受け取り、次の単語を再帰的に予測(出力)します。
自己教師あり事前トレーニングでは、LLMはラベル付けされていない膨大なコーパスから抽出されたサンプル文の冒頭を提供され、次の単語を予測するタスクを課されます。グラウンド・トゥルース(実際の次の単語)とそれ自身の予測の乖離を最小限に抑えるためのモデルのトレーニングにおいて、モデルはトレーニング・データ内の言語的および論理的パターンを複製することを学習します。この研究論文では、具体的なデータソースの詳細は省略されていますが、Llama 2は、一般に入手可能なソースから、2兆個のトークン(変換器ベースのニューラル・ネットワークが言語処理に使用する、数値で表現された単語、単語パーツ、フレーズ、その他の意味的断片)を使ってトレーニングしたと記載されています。
根本的には、ベースの基盤モデルは実際にプロンプトに回答ように事前にトレーニングされていません。つまり、文法的に一貫した方法でテキストをプロンプトに追加します。すぐに使える基盤モデルは、「クッキーの焼き方を教えてください」」というプロンプトに対して、「ホリデー・パーティーのために」と回答するかもしれません。対話や指示の遵守、クリエイティブ・ライティングなどの特定の用途向けに基盤モデルをトレーニングするには、教師あり学習や強化学習などの手法による、さらなるファイン・チューニングが必要です。
代わりに、ベースのLlama 2モデルは、特定の目的に特化したモデルを構築するための基盤として機能することを目的としています。これまで、Llama 2(元のLLaMa)モデルは、次のような複数の著名なオープンソースLLMのベースとして使用されてきました。
Llama-2チャット・モデルは、ChatGPTで使用される特定のGPTモデル・バージョンと同様に、対話型のユースケース向けにファイン・チューニングされています。
教師ありファイン・チューニング(SFT)は、チャットボットまたはバーチャル・アシスタント環境において、ユーザーが期待する形式で回答を生成するために、事前にトレーニングされたLlama 2のベース・モデルを準備するために使用されました。一連の教師あり学習タスクでは、(プロンプト、回答)という注釈付きの、対話形式のやり取りのラベル付けされたペアが、与えられたプロンプトに対する自身の回答と、ラベル付きデータによって提供された回答例との乖離を最小化するモデルのトレーニングに使用されます。したがって、モデルは例えば、「クッキーの焼き方を教えてください」というプロンプトに対する適切な回答は、単に文を完成させるのではなく、クッキーを焼く実際の指示を提供することであることを学習します。
論文では、何百万ものラベル付きサンプルを使用するのではなく、「少数だが高品質のサンプル」を使用することで結果が改善されたと述べられており、Meta AIが27,540個の注釈付きサンプルを収集したことを指摘しています。
SFTに続いて、Meta社は人間のフィードバックによる強化学習 (RLHF)を用いて、チャット・モデルの振る舞いを人間の好みや指示にさらに近づけました。RLHFでは、人間からの直接のフィードバックで「報酬モデル」をトレーニングし、人間が好む反応のパターンを学習します。報酬モデルの予測(特定の回答が人間に好まれるかどうか)をスカラー報酬信号に変換することにより、報酬モデルは強化学習を通じて、Llama-2チャットをさらにトレーニングするために使用されます。
人間のフィードバックを収集するには、さまざまな方法や形式があります。Meta AIは、人間のアノテーターにプロンプトを書いてもらい、Metaが提供する基準に基づいて、Llama 2の2つの異なる亜種によって生成された2つのモデルの回答から選択するように求められるという、単純なバイナリ比較の方法を用いました。また、報酬モデルがこれらの選択肢を適切に重み付けできるように、アノテーターは、選択した回答を「「とてもよい」、「ややよい」、「わずかだけよい、またはわからない」など、他の回答と比較してどの程度よいかを評価するよう求められました。
人間の好みに基づいて、2つの別々の報酬モデルをトレーニングしました。1つは有用性について最適化され、もう1つは安全性について最適化されました(つまり、有毒で憎しみに満ちた反応、または暴力や犯罪行為の助長に使用される可能性のある回答を避ける)。RLHFでLLMモデルの重みを更新するために通常使用されるアルゴリズムである近接政策最適化 (PPO)に加えて、Meta社は拒絶サンプリング(ibm.com外部へのリンク)を用いて、Llama-2-chat-70Bを更新しました。
Llama 2上に構築されたCode Llamaは、コードベースと自然言語ベースのプロンプトの両方からコード(およびコードに関する自然言語)を生成できるようにファイン・チューニングされています。Llama 2のベース・モデルとチャット・モデルのリリース直後に公開され、研究および商用利用は無料です。
Python、C++、Java、PHP、JavaScriptなどの一般的なプログラミング言語をサポートし、7B、13B、および34Bパラメータのモデル・サイズで利用可能で、最大100,000トークンのコンテキスト長を提供しています。2つの追加バリエーションであるCode Llama - PythonとCode Llama - Instructは、それぞれPython(およびPyTorch)と命令に従うようにファイン・チューニングされています。
クローズド・ソースの競合他社と比較して、Llama 2モデルは安全性や事実の正確さなどの面で優れています。Llama 2は、はるかに大規模なモデルの全機能には及ばないかもしれませんが、そのオープンな可用性と優れた効率に利点があります。
Llama 2をOpenAI社、Anthropic社、Google社などの競合他社の主力プロプライエタリ・モデルと比較する場合、規模を考慮することが重要です。クローズド・ソース・モデルは、そのアーキテクチャーの詳細が常にすべて開示されているわけではありませんが、入手可能な情報は、これらがすべて、Llama 2モデルで最大の700億パラメータを大幅に超えていることを強く示唆しています。
Llama 2の研究論文によると、人間の評価者は、ChatGPTの標準モデルであるGPT-3.5.-turbo-0301の回答よりも、Llama-2-chat 70Bの回答を好みました。Llama 2の回答の勝率は36%で、引き分けが31.5%でした。2番目に大きいPaLMモデルであるPaLM Bisonと比較して、70Bの勝率は50%以上でした。
Meta社のテストでは、7B、13B、および70BのLlama 2モデルはすべて、PaLM Bisonよりも安全性違反の割合が大幅に低く、PaLMの27%と比較して、3%および4%であり、ChatGPTの7%よりも低いものでした。これは、チャットボットからの有毒、憎悪、または扇動的な言葉が重大な結果をもたらす可能性がある企業のユースケースにおいて、大きな強みとなります。
大規模なクローズド・ソース・モデルに対する小規模なオープン・モデルならではの利点は、企業がローカル・モデル・インスタンスを実行する自由と、インフラストラクチャーやクラウド・コンピューティングに大規模な投資をすることなく実行できる優れたコスト効率にあります。ローカル・モデルを実行することで、商用サーバーにロードされることなく、またクローズド・ソース・モデルの将来のトレーニングに使用される可能性もなく、独自のコード、トレーニングの修正、独自のデータを使用して、モデルのパフォーマンスをファイン・チューニングすることができます。さらに、7Bや13Bなどの小さいモデル・サイズにより、処理能力が制限されているモバイル・アプリなどの環境でよりスムーズなパフォーマンスを実現できます。
Llama 2には独自の専用APIはありませんが、複数のプロバイダーを通じてアクセスできます。
IBM® Granite™をご紹介します。ビジネス向けに特化し、AIアプリケーションの拡張に合わせて最適化された、オープンで高性能かつ信頼性の高いAIモデル・ファミリーです。言語、コード、時系列、ガードレールのオプションをご覧ください。
ユースケースに最適なAI基盤モデルを選択する方法について説明します。
IBM Developerの記事、ブログを読み、チュートリアルで学んで、LLMに関する知識を深めましょう。
最新のAI技術とインフラストラクチャーを使用して、モデルのパフォーマンスを向上させ、競合他社に差をつけるよう、チームを継続的に後押しする方法を学びましょう。
すべてibm.com外部へのリンクになります。
1 「Meta's LLaMa 2 license is not Open Source」、 Voices of Open Source、2023年7月20日
2 「Llama 2 Community License Agreement」、Meta社、2023年7月18日
3 「The Open Source Definition」、 Open Source Initiative、最終更新日:2023年2月22日
4 「Statement of Support for Meta’s Open Approach to Today’s AI」、 Meta社、2023年7月18日
5 「Alpaca: A Strong、Replicable Instruction-Following Model」、 Stanford CRFM、2023年3月13日
6 「Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality」、LMSYS Org、2023年3月30日
7 「Orca-2: Teaching Small Language Models How to Reason」、Microsoft社、2023年11月
8 「WizardLM: Empowering Large Language Models to Follow Complex Instructions」、arXiv社、2023年6月10日
9 「The secret history of Elon Musk、Sam Altman、and OpenAI」、Semafor社、2023年3月24日
10 「Google’s newest A.I. model uses nearly five times more text data for training than its predecessor」、CNBC社、2023年5月16日
11 「Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance」、Google社、2023年4月4日
12 「The Capacity for Moral Self-Correction in Large Language Models」、arXiv社、2023年2月18日
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com