記事をシェアする:

基盤モデルとは、大量かつ多様なデータで訓練された、様々なアプリケーションの基盤とできる大規模なAIモデルです。

AIモデルは近い将来、少ない手間であらゆる産業やタスクに柔軟に適用できるようになっていくものと思われます。

過去10年の間に、人工知能のアプリケーションは爆発的に広がりました。当初は純粋に学術的な試みだったAIは、今や様々な産業で数えきれないほどの人々の日々の生活に影響を及ぼす力になっています。

昨今では、数千から数百万のサンプルから学習をすればAIシステムを構築でき、それは世界への理解を深めたり、困難な問題への新しい解を発見したりという点で、私たちを助けてくれます。私たちが書いたり話したりした言葉を大規模AIモデルを使って処理・理解する、デジタル・アシスタントや音声認識プログラムは、もう私たちの日常生活に一般的になっています。また生成AIは、有名なアーティストの全作品から学習すればそのアーティストのスタイルで新しい作品を生成したり、化学の教科書から学習すれば、過去に蓄積された研究を踏まえて、新しい化学物質を生み出したりすることができます。

そのように、多数の新しいAIシステムが実に様々な種類の実世界の問題を解決するのに役立っていますが、それぞれの新しいシステムを作りデプロイするのに大量の時間やリソースがしばしば必要とされるのが問題です。新しいAIモデルを学習する際には、取り組みたいその特定タスクのために、正確にラベルのついた大量のデータセットが利用可能かどうかを、まず確認しなければなりません。もしそのようなデータセットがなかったならば、適切な画像、テキストやグラフ構造などデータを集め、それらに、のべ数百時間から、ときには数千時間もの労力をかけて人手でラベルをつけなければなりません。それが準備できたら、そのデータセットに含まれる認識対象をAIモデルに学習させることができ、それで初めて、自然言語を理解するとか創薬のために新しい分子構造を発見するといったユースケースが実現できるのです。しかもこの学習の計算量は膨大で、一つの大規模自然言語処理モデルを学習する際にデータ・センターで消費されるエネルギーは、5台の自動車がその使用期間の間に排出するのとおよそ同量の二酸化炭素に相当するとも言われています。

これまでのAIにはそのような問題がありましたが、良いニュースがあります。これからは、これまで一般的だった、そのようなタスクごとに学習する手間が一部不要になっていきます。これからの新しいAIモデルは、ラベルのついていないデータによってまず事前学習された後に、タスクごとにわずかなファイン・チューニング作業をして作られます。こちらの事前学習によって準備されたモデルは「基盤モデル(foundation models)」と呼ばれていますが、この言葉は米スタンフォード大学 人間中心のAI研究所(Stanford Institute for Human-Centered Artificial Intelligence)によって初めて広められました。基盤モデルの潜在的な能力は、画像と自然言語処理において、GPT-3、BERT、DALL-E 2といった先駆けとなったモデルが最初の可能性を世界に示しました。短いプロンプト(出だしの文章などヒントとなるデータ)を入力するだけで、こういったモデルを使ったシステムは、エッセイ全体や複雑な画像などを生成することができます。しかもそのシステムは、そのような文章や画像を生成する方法を専門に学習させられているわけではないのです。

これらの新しいシステムが基盤モデルと呼ばれているのは、その名前が示しているように、AIモデルを使った様々なアプリケーションの基盤とすることができるからです。これらのモデルは、自己教師あり学習と転移学習を利用して、ある状況について学習した情報を他の状況に適用することができます。与えられた問題の理解を新たな問題に応用するのに必要となるデータの量は、さすがに一般的な人間が必要とする量よりも多くはなりますが、それでも、知識を応用して得られる結果は人間に似ているという見方もできます。すなわち言うなれば、一台の車を運転する方法に習熟したら、あまり苦労しなくても他の大部分の車を運転できるようになるようなものです。ときにはトラックやバスにまで応用することもできます。

基盤モデルが創造性を発揮しているかのように見える、初期的な例もすでに得られています。たとえば首尾一貫した議論を作文したり、オリジナリティのあるアートを作ったりといったことです。基盤モデルの価値の応用対象は理論的には、それにとどまりません。IBM ResearchではAIの応用可能性を広げ柔軟にするための研究を何年も続けて来ましたし、基盤モデルに関するスタンフォード大学の最初の論文の後、その価値を産業界に応用しようとしてきました。

基盤モデルが既にかなり成果を挙げている分野である、自然言語処理を例にしましょう。前の世代のAI技術を使った場合、あるドメイン(たとえば医学論文)の文書を要約するAIモデルを作りたければ、要約タスクのためだけに数万のラベルつき文書サンプルが必要になります。しかし事前学習済みの基盤モデルがあれば、必要となるラベルつきデータの量を格段に減らすことができます。ある対象ドメインの要約モデルを作る作業全体は次のようになります。

1. まず、要約モデルよりも前に、対象ドメイン向けの基盤モデルを作るために、対象ドメインのラベルなしテキスト・コーパスで基盤モデルをファイン・チューンします。このデータはラベルなしで良いので、その準備にかかる手作業のコストは比較的に少なくて済みます。

2. 次に、これよりももっとずっと少量の、たとえばうまくすれば千サンプルぐらいのみのラベル付きデータを使って、要約モデルを学習することができます。

以前はそれぞれのタスクごとに毎回、モデルをゼロから学習する必要がありましたが、それに対して上の作業の「1」で作られた対象ドメイン向け基盤モデルは多数のタスクに共通して利用することができますので、次に別のタスク(たとえば文書分類)のAIモデルを同じ対象ドメイン向けに作ろうとした時には「1」をとばして「2」から作業を始めることができます。

私たちはAI研究の様々な領域において基盤モデルの種を蒔き始めています。
CodeNetは、過去から現在までの最も人気があったプログラミング言語で書かれたプログラムの大量なデータセットですが、無数のビジネス・プロセスを自動化・モダナイズする基盤となるモデルに、どのようにこのCodeNetが利用できるか私たちは調査しています。プログラミング言語を扱うAIを利用することによってほとんど人手をかけずに、最新のウェブ・サービスを利用する能力をレガシー・システムに与えられたら、あるいは、自動的にコーディングされて自動的に更新されるプログラムを作ることができたらどんなに便利でしょうか。

そしてまた、私たちは昨年暮れにオープンソースのCodeFlareツールを公開しましたが、これは基盤モデル作成の作業を劇的に省力化するものです。モデルの学習やテストの処理手順をセットアップしたり、実行を管理したり、規模を拡大したりといった作業は、IBMだけでなく、IBMのパートナー企業がその業務ドメイン向けの基盤モデルを作成するためにこれから必要になる作業です。たとえば、ファイナンシャル・サービスの会社は評判分析が対象とする言葉遣いを扱えるような基盤モデルをカスタマイズするという作業を、このCodeFlareで効率化できるものと思われます。

IBM自身のビジネスでも基盤モデルの価値は既に発揮されています。私たちはWatson製品に横断的な基盤モデルを既に実装していますが、その精度はその前の世代のモデルの精度を大きく上回り、かつ開発コスト効率で優れています。Watson NLP製品の評判分析のモデルを新しい言語について学習する際に、事前学習済みの基盤モデルを使うことによって、学習データを数千文で済ますことができましたが、これは前のモデルの時に必要だったラベル付きのデータ量よりも100分の1程度でした。Watson事業化後の最初の7年間でサポートしていた言語数は12言語だったところ、ここ一年で基盤モデルを使うことで25言語まで跳ね上がりました。

私たちは、基盤モデルによって企業におけるAI採用が大きく加速されると信じています。データにラベル付けを行う作業が削減されることによって、AIのビジネス導入にとりかかるのが容易になりますし、基盤モデルによって実現する高精度で効率的なオートメーションは、従来より広範囲のミッション・クリティカルな状況でもAIを利用しやすくなることを意味しています。私たちの目標は、導入ストレスの少ないハイブリッド・クラウド環境において全ての企業に基盤モデルの力をもたらすことです。

今、人工知能研究はエキサイティングな時期を迎えています。企業にとっての基盤モデルの潜在的な価値について、私たちのパートナーであるRed Hatが提供しているこちらのビデオをご覧ください。


本記事は「What are foundation models?」を抄訳し、日本向けに加筆したものです。


立花 隆輝
監訳・解説:立花 隆輝
東京基礎研究所 AI担当シニア・マネージャー、シニア・テクニカル・スタッフ・メンバー
入所以来、マルチメディア信号処理や音声言語処理などに従事。現在は自然言語処理、画像処理、エッジやロボット関連機械学習応用などを含めたAI関連プロジェクトのマネージメントを行う。
More AI stories
2022年10月13日

医療分野での新たな発見をより迅速に行う新時代の到来

IBM Researchはパートナーと協力して、重要な医療問題の解決策をさまざまな方法で見つけようとしています。最初に取り組んでいるのは新薬や治療法の発見にかかる時間の短縮です。 人々にとって健康ほど重要なものはありませ […]

さらに読む

2022年7月22日

IBMの研究者、NISTの耐量子標準の開発を支援へ

米国国立標準技術研究所(National Institute of Standards and Technology, NIST)は、量子コンピューティングの時代のサイバーセキュリティーに向けた耐量子暗号プロトコルの最初 […]

さらに読む

2022年7月20日

3Dチップ製造のサプライチェーンを簡素化する画期的な技術を発表

IBM Researchと東京エレクトロンは、3Dチップ積層技術によってウェハー生産のサプライチェーンおよびプロセスを簡素化するチップ製造イノベーションを目指し、パートナーシップを締結しました。 コンピューター・チップの […]

さらに読む