Actions / Navigation / close / 20
マイIBM ログイン ニュースレター

Transformerモデルとは

Transformerモデルとは

Transformerモデルは、2017年に導入されたディープラーニング・モデルの一種です。これらのモデルはすぐに自然言語処理(NLP)の基礎となり、機械学習や人工知能の幅広いタスクに適用されています。

このモデルは、Google Brainのチーム、およびトロント大学のグループであるAshish Vaswani氏による2017年の論文「Attending is All You Need」で初めて説明されました。現在、LLMのトレーニングなどのアプリケーションでTransformerが広く使用されていることを考えると、この論文の発表は、この分野における分岐点と考えられています。

これらのモデルは、テキストと音声をほぼリアルタイムで翻訳できます。例えば、旅行者が第一言語で路上で地元の人々とコミュニケーションできるようになったアプリがあります。これらは、研究者がDNAをより深く理解し、医薬品設計をスピードアップするのに役立ちます。異常を検出し、金融やセキュリティーにおける不正行為を防ぐことができます。Vision Transformerは、コンピューター・ビジョン・タスクにも同様に使用されます。

OpenAIの人気のあるChatGPTテキスト生成ツールは、モデルが入力テキストの最も関連性の高いセグメントに焦点を当てることができるため、予測、要約、質問応答などにTransformerアーキテクチャーを利用しています。ツールのさまざまなバージョンで見られる「GPT」(例:GPT-2、GPT-3)は「Generative Pre-Trained Transformer」の略です。ChatGPTなどのテキストベースの生成AIツールは、大規模で複雑なデータ・セットに基づいて、一連のテキスト内の次の単語をより容易に予測できるため、Transformerモデルの恩恵を受けます。

BERTモデル、つまりTransformerの双方向エンコーダー表現は、Transformerアーキテクチャーに基づいています。2019年現在、BERTはほぼすべての英語のGoogle検索結果に使用されており、他の70以上の言語に展開されている1。

ニュースレターを表示しているスマホの画面

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

Transformerモデルの違い

Transformerモデルの主な革新点は、重大な欠点を持つニューラル・ネットワーク・アプローチであるリカレント・ューラル・ネットワーク(RNN)や畳み込みニューラル・ネットワーク(CNN)に依存する必要がないことです。Transformerは入力シーケンスを並行して処理するため、トレーニングと推論を非常に効率的に行うことができます。GPを追加するだけでは高速化できないからです。Transformerモデルは、長短期記憶(LSTM)などの以前のリカレント・ニューラル・ネットワーク・アーキテクチャーよりもトレーニングに必要な時間が短くなります。

RNNとLSTMの歴史は、それぞれ1920年代と1990年代にまで遡ります。これらの手法は、入力の各成分を順番に計算します(例:単語ごと)であるため、計算に時間がかかる場合があります。さらに、入力内の情報間の「距離」が長い場合、どちらのアプローチもコンテキストを保持する際に制限に遭遇します。

オフィスでミーティングをするビジネスチーム

IBMお客様事例

お客様のビジネス課題(顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など)を解決した多岐にわたる事例のご紹介です。

2つの大きなイノベーション

変圧器モデルがもたらす主な革新は2つあります。テキストの予測のコンテキスト内で、これら2つの革新について考えてみましょう。

  1. 位置エンコーディング:各単語を文中に現れる順番で見るのではなく、各単語に固有の番号を割り当てる。これにより、シーケンス内の各トークン(NLPの単語やサブワード部分などの入力の一部)の位置に関する情報が提供され、モデルがシーケンスの連続情報を考慮できるようになります。(

  2. 自己注意:注意とは、文中の各単語の重みを、文中の他の各単語との関係で計算するメカニズムのことで、これによりモデルは、連続して使われる可能性の高い単語を予測することができます。この理解は、モデルが大量のデータでトレーニングされる、時間の経過とともに学習が深まります。自己注意メカニズムにより、各単語がシーケンス内の他のすべての単語に並行して注目し、現在のトークンに対するそれらの重要性を比較検討できます。このように、機械学習モデルは、言語内で単語が通常どのように使用されるかについての統計的確率に基づいて、文法の規則を「学習」できると言えます。

Transformerモデルはどのように機能しますか?

Transformerモデルは、自己注意メカニズムとフィードフォワード・ニューラル・ネットワークを含む一連のレイヤーを通じて、トークンのシーケンスまたはその他の構造化データである入力データを処理することによって機能します。変圧器モデルの動作の背後にある中心となる考え方は、いくつかの重要なステップに分類できます。

英語の文章をフランス語に変換する必要があると想像してみましょう。これらは、変圧器モデルを使用してこのタスクを実行するために必要な手順です。

  1. 入力埋め込み:入力文は最初に埋め込みと呼ばれる数値表現に変換されます。これらは、入力シーケンス内のトークンの意味を理解します。単語のシーケンスの場合、これらの埋め込みはトレーニング中に学習することも、事前に学習された単語の埋め込みから取得することもできます。

  2. 位置エンコーディング:位置エンコーディングは通常、Transformerモデルに入力される前にトークンの埋め込みに追加される追加の値またはベクトルのセットとして導入されます。これらの位置エンコーディングには、位置情報をエンコードする特定のパターンがあります。

  3. 複数の注意ヘッド:自己注意は複数の「注意ヘッド」で動作し、トークン間の異なるタイプの関係を捉える。活性化関数の一種であるソフトマックス関数は、自己注意メカニズムにおける注意の重みを計算するために使用されます。

  4. 層の正規化と残差接続:このモデルは、層の正規化と残差接続を使用して、トレーニングを安定させ、高速化します。

  5. フィードフォワード型ニューラルネットワーク:自己注意層の出力はフィードフォワード層に渡される。これらのネットワークは、トークン表現に非線形変換を適用し、モデルがデータ内の複雑なパターンと関係を把握できるようにします。

  6. 積み重ねられた層:変圧器は通常、複数の層が積み重なった構造になっている。各層は前の層の出力を処理し、徐々に表現を洗練させます。複数の層を積み重ねることにより、モデルはデータ内の階層的で抽象的な特徴を特定できるようになります。

  7. 出力層:ニューラル機械翻訳のようなシーケンス間のタスクでは、エンコーダーの上に別のデコーダーモジュールを追加して出力シーケンスを生成できます。

  8. 学習:変圧器モデルは教師あり学習を使用してトレーニングされ、モデルの予測と与えられたタスクのグランド・トゥルースとの差を定量化する損失関数を最小化するようにトレーニングされます。通常、トレーニングにはAdamや確率的勾配降下法(SGD)などの最適化手法が含まれます。

  9. 推論:トレーニング後、モデルは新しいデータに対する推論に使用することができます。推論中、入力シーケンスは事前学習されたモデルに渡され、モデルは指定されたタスクの予測または表現を生成します。

関連ソリューション

関連ソリューション

IBM watsonx.ai

AI開発者向けの次世代エンタープライズ・スタジオであるIBM watsonx.aiを使用して、生成AI、基盤モデル、機械学習機能をトレーニング、検証、チューニング、導入しましょう。わずかなデータとわずかな時間でAIアプリケーションを構築できます。

watsonx.aiをご覧ください。
人工知能ソリューション

業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。

AIソリューションはこちら
AIコンサルティングとサービス

AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。

AIサービスはこちら
次のステップ

AI開発ライフサイクル全体にわたる機能にワンストップでアクセスできます。使いやすいインターフェース、ワークフロー、業界標準のAPIやSDKを利用して、強力なAIソリューションを構築できます。

watsonx.aiの詳細はこちら デモを予約
脚注

1 Google’s BERT Rolls Out Worldwide (ibm.com外部へのリンク)「Search Engine Journal」誌、2019年12月9日