このモデルは、Google Brain のチーム、およびトロント大学のグループである Ashish Vaswani 氏による 2017 年の論文「Attending is All You Need」で初めて説明されました。 現在、LLM のトレーニングなどのアプリケーションでトランスフォーマーが広く使用されていることを考えると、この論文の発表は、この分野における分岐点と考えられています。
これらのモデルは、テキストと音声をほぼリアルタイムで翻訳できます。 たとえば、旅行者が第一言語で路上で地元の人々とコミュニケーションできるようになったアプリがあります。 これらは、研究者が DNA をより深く理解し、医薬品設計をスピードアップするのに役立ちます。 異常を検出し、金融やセキュリティにおける不正行為を防ぐことができます。 ビジョン トランスフォーマーは、コンピューター ビジョン タスクにも同様に使用されます。
OpenAI の人気のある ChatGPT テキスト生成ツールは、モデルが入力テキストの最も関連性の高いセグメントに焦点を当てることができるため、予測、要約、質問応答などにトランスフォーマー アーキテクチャを利用しています。 ツールのさまざまなバージョンで見られる「GPT」(例: GPT-2、GPT-3) は「Generative Pre-Trained Transformer」の略です。 ChatGPT などのテキストベースの生成 AI ツールは、大規模で複雑なデータ セットに基づいて、一連のテキスト内の次の単語をより容易に予測できるため、トランスフォーマー モデルの恩恵を受けます。
BERT モデル、つまりトランスフォーマーの双方向エンコーダー表現は、トランスフォーマー アーキテクチャに基づいています。 2019年現在、BERTはほぼすべての英語のGoogle検索結果に使用されており、他の70以上の言語に展開されている1。
AI をスケールするための機能強化やコスト最適化の機会など、データ レイクハウス戦略をデータ アーキテクチャに統合することの威力を実感してください。
生成AIに関する電子ブックに登録する
トランスフォーマー モデルの主な革新点は、重大な欠点を持つニューラル ネットワーク アプローチであるリカレント ニューラル ネットワーク (RNN) や畳み込みニューラル ネットワーク (CNN) に依存する必要がないことです。 トランスフォーマーは入力シーケンスを並行して処理するため、トレーニングと推論を非常に効率的に行うことができます。GPU を追加するだけでは高速化できないからです。 Transformer モデルは、長短期記憶 (LSTM) などの以前のリカレント ニューラル ネットワーク アーキテクチャよりもトレーニングに必要な時間が短くなります。
RNN と LSTM の歴史は、それぞれ 1920 年代と 1990 年代にまで遡ります。 これらの手法は、入力の各成分を順番に計算します(例: 単語ごと)であるため、計算に時間がかかる場合があります。 さらに、入力内の情報間の「距離」が長い場合、どちらのアプローチもコンテキストを保持する際に制限に遭遇します。
変圧器モデルがもたらす主な革新は 2 つあります。 テキストの予測のコンテキスト内で、これら 2 つの革新について考えてみましょう。
位置エンコーディング:各単語を文中に現れる順番で見るのではなく、各単語に固有の番号を割り当てる。 これにより、シーケンス内の各トークン (NLP の単語やサブワード部分などの入力の一部) の位置に関する情報が提供され、モデルがシーケンスの連続情報を考慮できるようになります。
自己注意:アテンションとは、文中の各単語の重みを、文中の他の各単語との関係で計算するメカニズムのことで、これによりモデルは、連続して使われる可能性の高い単語を予測することができる。 この理解は、モデルが大量のデータでトレーニングされるにつれて、時間の経過とともに学習されます。 セルフ アテンション メカニズムにより、各単語がシーケンス内の他のすべての単語に並行して注目し、現在のトークンに対するそれらの重要性を比較検討できます。 このように、機械学習モデルは、言語内で単語が通常どのように使用されるかについての統計的確率に基づいて、文法の規則を「学習」できると言えます。
Transformer モデルは、セルフ アテンション メカニズムとフィードフォワード ニューラル ネットワークを含む一連のレイヤーを通じて、トークンのシーケンスまたはその他の構造化データである入力データを処理することによって機能します。 変圧器モデルの動作の背後にある中心となる考え方は、いくつかの重要なステップに分類できます。
英語の文章をフランス語に変換する必要があると想像してみましょう。 これらは、変圧器モデルを使用してこのタスクを実行するために必要な手順です。
入力埋め込み:入力文は最初に埋め込みと呼ばれる数値表現に変換されます。 これらは、入力シーケンス内のトークンの意味をキャプチャします。 単語のシーケンスの場合、これらの埋め込みはトレーニング中に学習することも、事前にトレーニングされた単語の埋め込みから取得することもできます。
位置エンコーディング:位置エンコーディングは通常、トランスフォーマーモデルに入力される前にトークンの埋め込みに追加される追加の値またはベクトルのセットとして導入されます。 これらの位置エンコーディングには、位置情報をエンコードする特定のパターンがあります。
複数の注意ヘッド:自己注意は複数の"注意ヘッド" で動作し、トークン間の異なるタイプの関係を捉える。 活性化関数の一種であるソフトマックス関数は、セルフ アテンション メカニズムにおける注意の重みを計算するために使用されます。
レイヤーの正規化と残差接続:このモデルは、レイヤーの正規化と残差接続を使用して、学習を安定させ、高速化する。
フィードフォワード型ニューラルネットワーク:自己注意層の出力はフィードフォワード層に渡される。 これらのネットワークは、トークン表現に非線形変換を適用し、モデルがデータ内の複雑なパターンと関係をキャプチャできるようにします。
積み重ねられた層:変圧器は通常、複数の層が積み重なった構造になっている。 各レイヤーは前のレイヤーの出力を処理し、徐々に表現を洗練させます。 複数のレイヤーを積み重ねることにより、モデルはデータ内の階層的で抽象的な特徴をキャプチャできるようになります。
出力層:ニューラル機械翻訳のようなシーケンス間のタスクでは、エンコーダーの上に別のデコーダーモジュールを追加して出力シーケンスを生成できます。
学習:変圧器モデルは教師あり学習を使用して学習され、モデルの予測と与えられたタスクのグランドトゥルースとの差を定量化する損失関数を最小化するように学習する。 通常、トレーニングには Adam や確率的勾配降下法 (SGD) などの最適化手法が含まれます。
推論:学習後、モデルは新しいデータに対する推論に使用することができる。 推論中、入力シーケンスは事前トレーニングされたモデルに渡され、モデルは指定されたタスクの予測または表現を生成します。
IBM watsonx.dataについて詳しくは、構造化データと非構造化データを簡単に統合して管理できるデータ・ストアをご覧ください。
オープンデータレイクハウス・アーキテクチャーについて詳しく知り、データレイクの柔軟性とコスト上の利点とデータ・ウェアハウスのパフォーマンスとの関係をご覧ください。
IBM watsonx.dataが、今日の複雑なデータ環境の課題に対処し、ニーズに合わせてAIを拡張するのにどのように役立つかをご覧ください。
高速かつ柔軟なオープンソースSQL QueryエンジンであるPrestoが、貴社が必要とするインサイトにどのように役立つかをご覧ください。
{1 Google's BERT Rolls Out Worldwide, Search Engine Journal(IBM.com 外部へのリンク) 2019年12月9日