GPT(Generative Pre-Trained Transformer)とは

病院で患者のCTスキャンを調べる2人の医師

共同執筆者

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

GPT(Generative Pre-Trained Transformer)とは

GPT(Generative Pre-Trained Transformer)とは、トランスフォーマー・ディープラーニング・アーキテクチャーを基盤とした大規模言語モデル(LLM)の一種です。 GPTはOpenAIが開発し、これらの基盤モデルはChatGPTの他、人間が作成した出力をシミュレートできる生成AIアプリケーションを支えています。

AI研究企業であるOpenAIは、2018年にGPT-1と名付けられた最初のGPTモデルを導入しました。それ以来、彼らはAIモデルのGPTラインの発展版をいくつかリリースしています。最新のGPTモデルは、2023年初めにリリースされたGPT-4です。2024年5月、OpenAIは、オーディオ、ビジュアル、テキスト入力をリアルタイムで処理できる、多言語・マルチモーダルなGPT-4o1を発表しました。

基礎モデルとして、GPTはその後微調整されて、下流工程の幅広い具体的なタスクに適応してきました。GPTは、テキストベースのアプリケーションのみならず、コンピューター・ビジョンによる画像の生成と分析、コードの記述、データの処理などを行う人工知能(AI)アプリを強化します。これらのアプリは、データのやり取りを可能にするアプリケーション・プログラミング・インターフェース (API) を介してGPTに接続します。

ニュースレターを表示しているスマホの画面

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

GPTが重要な理由

2017年にGoogle Brainの論文Attention Is All You Need2で紹介されたニューラル・ネットワークの一種であるTransformerアーキテクチャーにより、GPTモデルは生成AIの開発を加速させましたそれ以来、GPTやBERTなどのトランスフォーマーモデルは、OpenAIのChatGPTチャットボットを筆頭に、生成AIの多くの注目すべき開発を支えてきました。

OpenAIだけではなく、Anthropic社のClaude、Inflection社のPi、Google社のGemini(旧称Bard)など、他の企業も独自の生成AIモデルをリリースしています。その一方で、OpenAIはMicrosoftのCopilot AIサービスを支えています。

AI Academy

基盤モデルがAIのパラダイム・シフトとなる理由

新たな収入源の獲得、コスト削減、生産性の向上を実現する、柔軟で再利用可能な新しいAIモデルについて学びます。その後、ガイドブックを使ってさらに理解を深めてください。

GPTのユースケース

GPTなどのTransformerモデルの柔軟性は、幅広いユースケースに適しています。GPTは人間のようなテキストを生成できるため、次のような用途で広く利用されています。

  • チャットボットと音声アシスタント
  • コンテンツ作成とテキスト生成
  • 言語翻訳
  • コンテンツの要約と変換
  • データ分析
  • コーディング
  • ヘルスケア

チャットボットと音声アシスタント

GPTを利用したチャットボットは、標準的な自動化カスタマー・サービスよりも人間らしい印象を与えることができます。APIを通じて、組織はGPTを音声アプリにリンクさせ、より複雑な発言に応答し、会話形式で質問応答サービスを提供する音声アシスタントを作成できます。

コンテンツ作成とテキスト生成

GPTモデルは、効果的なプロンプトを使用して、短い形式のソーシャルメディアのコピーからブログ記事の全文やEメールまで、さまざまなテキストコンテンツを生成できます。また、書き手がコンテンツの概要作成や構想にGPTを使用してから自分で文章を書くこともできるため、コンテンツ作成のワークフローが効率化されます。

GPTを使用して公開用のコンテンツを直接生成すると、知的財産に関する懸念が生じる可能性があります。これはGPTを使用する際の主なリスクの1つです。

言語翻訳

GPT搭載アプリは、文字と音声の両方から言語をリアルタイムで翻訳できます。ライブデモ3では、GPT-4oが自力でリアルタイムに翻訳する能力を実証しました。

コンテンツの要約とコンテンツ変換

GPTは、法律文書や事業報告書などの長い文書を処理して要約できます。また、ユーザーが指定したスタイルでコンテンツを書き換えることもできます。たとえば四半期報告書をインプット・データとして提供し、それをわかりやすい箇条書きに要約するよう指示することができます。

データ分析

GPTは、大量のデータを理解しやすい洞察に加工することができます。APIを経由して、他のアプリでGPTを使い、図表やグラフなどの形式でデータの可視化ができます。ただし社内データをGPTに提供する組織は、サイバーセキュリティー侵害やデータ保護規制違反に直面するリスクがあります。

コーディング

GPTモデルはプログラミング言語を学習してコード・スニペットを生成できます。通常、GPTはコーディング・アシスタントとして扱う方が、アプリ全体をゼロから構築するよう指示するよりも優れた成果を出すことができます。コードも含め、GPTが生成したすべてのコンテンツは、正確性と公正な使用を期すため、利用前にレビューする必要があります。

ヘルスケア

2024年2月、米国国立医学図書館は、ヘルスケア分野におけるGPT応用の可能性を示した論文を発表しました。遠隔地にいる患者への安定したアクセスや、治療の選択肢をパーソナライズするなどが挙げられています。ただしこの論文では、プライバシーの懸念や知識の限界など、さまざまな欠点についても説明しています。

GPTの仕組み

GPTモデルはインプットシーケンスを分析し、複雑な数学を適用して最も蓋然性の高い出力を予測することによって機能します。確率論を使用し、前のすべての単語に基づいて文中の次の単語を特定します。ディープラーニングAIテクノロジーの一つであるGPTは、自然言語処理(NLP)を使用して、ユーザーのプロンプトを理解し、まるで人間が書いたような関連性の高い応答を生成します。

ユーザーがテキストベースのプロンプトを入力すると、GPT社は、有名な文学作品からオープンソース・コードまで、数十億もの公開されているテキスト・データ・ソースで構成されるトレーニング・データに基づいて、最も可能性の高い応答を作成します。

トレーニング用のデータ・セットが膨大であるため、GPTは人間に近い言語理解能力を模倣することができます。大規模GPTモデルは、ディープラーニングを適用してコンテキストを処理し、トレーニング・データ内の関連するテキストから知識を引き出し、最適な応答を予測します。

GPTモデルのパワーは、主に次の2つの側面に由来します。

  • ラベル付けされていないデータからパターンを検出し、そのパターンを新しい入力に適用するようにモデルを学習させる生成的事前学習

  • 入力シーケンスのあらゆる部分を並列処理できるTransformerアーキテクチャー

生成的事前トレーニング

生成的事前トレーニングは、ラベルのないデータで大規模言語モデルをトレーニングし、さまざまなデータを認識するようにモデルに教え、正確な予測を作成する能力を磨きます。GPTは、事前学習データのパターンと構造をユーザー入力に適用することで、新しいデータを生成します

生成的事前トレーニングは教師なし学習の一種で、モデルにラベル付けされていないデータを与え、それをモデル自身で理解するように強制します。ラベル付けされていないデータ・セット内のパターン検出を学習することで、機械学習モデルは、ChatGPT内でユーザープロンプトなどの新しい入力に直面したときに、同様の結論を導き出す能力を獲得します。

GPTモデルは、数十億、場合によっては数兆件のパラメーターでトレーニングされます。パラメーターとは、モデルがトレーニング・プロセス中に改良し、モデルの動作を決定する内部変数です。OpenAIはまだGPT-4に関する正確な詳細を明らかにしていませんが、モデルには約1兆8,000億個のパラメータ4が含まれていると推定されており、これはGPT-3.5の10倍以上に増加しています。

トランスフォーマーモデル

Transformerモデルは、テキストベースの入力の意図と意味を識別する自然言語処理に特化したニューラル・ネットワークの一種です。インプットを動的に処理し、文中の位置を問わず最も重要な単語に焦点を当てることができます。

GPTモデルは人間と同じように言語を理解するわけではありません。代わりに単語をトークンと呼ばれる離散的な単位に分割します。一部の単語は複数のトークンに分割されます。Transformerモデルは、すべてのトークンを一度に評価することで、長距離依存関係、つまり互いに離れたトークンの間の関係を確立することに優れています。GPTは、長距離依存関係の理解に依拠して、文脈に合わせてインプットを処理します。

Transformerモデルは、自己注意機構を使用して依存関係やそのほかの関係を確立し、エンコーダーとデコーダーと呼ばれる2つのモジュールでデータを処理します。

自己注意機構

自己注意メカニズムはトランスフォーマーの特徴的な機能であり、入力シーケンス全体を一度に処理できるようにします。Transformerモデルは、入力シーケンス内での位置を問わず最も重要なトークンに自ら「注意」を向けることができます。

対照的に、旧式の リカレント・ニューラル・ネットワーク(RNN)畳み込みニューラル・ネットワーク(CNN)は、インプットデータを逐次的または階層的に評価します。自己注意機構により、GPTは文脈を処理し、単に文中の次の単語を推測するのではなく、自然に感じられる言葉で長い応答を返すことができます。

エンコーダー

エンコーディングは、トークンを仮想的な3次元ベクトル空間にマッピングするプロセスです。3次元空間内で、互いに近い位置でエンコードされたトークンは、意味がより似ていると想定されます。このようなインプットシーケンスの数学的ベクトル化が埋め込みと呼ばれます。

Transformerネットワーク内のエンコーダー・ブロックは、それぞれの埋め込みを重みづけし、相対的な重要度を決定します。その一方で、位置エンコーダーがセマンティクスを捕捉し、例えば「卵が鶏の前に来た」と「鶏が卵の前に来た」といった、同じ単語で語順が異なる文のグループをGPTモデルが区別できるようにします。

デコーダー

デコーダーは、エンコーダーが作成した埋め込みに対する統計的に最も可能性の高い応答を予測します。自己注意機構によりデコーダーはインプットされたシーケンスの最も重要な部分を特定することができ、また高度なアルゴリズムによって正しい可能性が最も高いアウトプットを判断します。

GPTの歴史

2018年にGPTがリリースされて以来、OpenAIは現在進行中の生成AIに関する話題の最前線に立ち続けています。主力製品であるChatGPTに加えて、同社はDALL-Eによる画像生成やSoraによる生成動画にも取り組んできました。

GPT-1、2018年

OpenAIが最初のGPTモデルをリリースしました。その性能は当時としては非常に優れたもので、後の開発で達成される概念実証としての役割を果たしました。GPT-1は人間らしい方法で質問に答えたり、テキスト生成のプロンプトに応答したりすることができ、チャットボットやコンテンツ制作における将来のユースケースを明らかにしました。

GPT-1では、ハルシネーションや作話が比較的多く発生し、あたかも事実であるかのように誤った情報を提示することがありました。GPT-1のこうした応答は、距離が遠い場合の依存関係を特定し、長い形式の正確な応答をつなぎ合わせるGPTの能力を、OpenAIがまだ十分に磨いていないことを示していました。

GPT-2、2019年

OpenAIの次のモデルには15億のパラメーターがあり、性能が強化されました。GPT-2は長い応答での一貫性を維持することに関しては、前のモデルよりも成功しており、長距離依存関係の検出機能が十分に完成していたことがわかります。

GPT-2は段階的にリリースされ、完全バージョンに先立っていくつかの容量制限モデルが利用可能になりました。OpenAIは声明5で、潜在的な悪用やその他の倫理的懸念を軽減する必要があったために、段階的なリリースが不可欠だったと説明しています。OpenAI社は、このモデルがオンラインで他の人になりすまし、誤解を招くニュース記事を生成し、ネットいじめやフィッシング詐欺コンテンツ作成を自動化するためにどのように使用されるおそれがあるかを説明していました。

OpenAIのCEOであるSam Altman氏は、政府によるAI規制を公に繰り返し求めてきましたが、一方で同社はEUのAI法の制限を緩和するために非公式にロビー活動も行っていました6。2024年6月に欧州議会によって承認された最終法律の文言は、同社の勧告に沿ったものであるようです。

GPT-3、2020年

1,750億パラメータ(以前のモデルの100倍以上)を誇るGPT-3は、当時最大規模のLLMの1つとして登場しました。その機能は、同シリーズでの過去のモデルを大幅に上回っています。ChatGPTの無料バージョンは、GPT-3の最新バージョンであるGPT-3.5を引き続き使用しています。

GPT-3の性能はそのさらなる出力と規模を反映していますが、トレーニングの需要も急増しました。このような大規模なLLMを訓練するのに必要な計算資源とエネルギー資源は、二酸化炭素と水のフットプリントに関する懸念を引き起こしました7。これに応じて、OpenAIはトレーニング・プロセスの効率を高める新しいトレーニング方法を開発しました。

GPT-4、2023年

GPTの最新バージョンはOpenAIの中でも最も強力な製品で、コンテンツの品質とバイアス防止の両方において、これまでのバージョンを上回っています。これはChatGPTのプレミアム版に該当し、GPT-3.5による同サービスの無料版よりも優れた機能と性能を有料サブスクリプション登録者に提供しています。

ただし、これはGPTファミリーの中で最もリソースを消費するモデルでもあり、一部では1日の運用コストは70万米ドルとも推定されています。8LLMが成長を続ける中、コストと潜在的なメリットについての議論は続いています。ゴールドマン・サックスが2024年6月に発行したレポート9では、モデルのトレーニングと保守にかかるコストの上昇と比較して、生成AIのユースケースが限定的なものにとどまる可能性に焦点を当てています。

モデルの現在のバージョンであるGPT-4 Turboは、2023年4月にナレッジカットオフを迎えています。つまりトレーニング・データ、またはナレッジ・ベースに、その時点よりも後にリリースされたオンライン・コンテンツは含まれていません。

GPT-4o、2024年

2024年5月に発表されたGPT-4oは多言語であ、英語以外の多数の言語でコンテンツをサポートしています。また、マルチモーダルであり、画像、音声、動画のプロンプトを処理しながら、応答してテキスト、画像、音声コンテンツを生成することができます。OpenAIによると、GPT-4oではGPT-4 Turboに比べてテキスト生成が50%安く、テキスト生成の速度は2倍になっています10

GPTのリスク

GPTやその他の生成AIモデルはメディアで広く取り上げられていますが、その使用にはリスクがつきものです。GPTをワークフローに組み込もうとしている組織や個人は、次のような潜在的なリスクを認識しておく必要があります。

  • データ・プライバシーと機密性

  • 知的財産侵害と所有権の紛争

  • 不正確な出力

  • モデル・バイアス

データ・プライバシーと機密性

GPTに入力されたデータはすべて、他のクエリの処理時に使用することができ、またOpenAIによって他のモデルのトレーニングに使用される可能性もあります。これは機密データのセキュリティー・リスクにつながるだけあではなく、データ保護に関する契約上および法的義務に違反するリスクを組織にもたらします。

知的財産侵害と所有権の紛争

OpenAIは、著作権で保護された資料を使用してモデルをトレーニングしています。同社はこの選択をフェアユースとして自己弁護していますが、2023年12月のThe New York Times11 による訴訟などの法的措置を受けています。AIが生成したアウトプットには著作権で保護されたコンテンツが含まれる可能性があり、人間による事前の精査および編集がなければ、その使用は著作権の規制に違反しかねません。

ChatGPTの声の1つが、2013年の映画『her/世界でひとつの彼女』で未来のAIの声を演じた俳優のスカーレット・ヨハンソン12 の声を元にしているという主張が出たときも、OpenAIは非難を浴びました。以来、同社は該当する声の製品への使用を取りやめています。

不正確な出力

GPTが生成した出力は、事実として正しいとは限りません。生成AIモデルでは、アルゴリズムがデータ内に存在しないパターンを検知することでAIハルシネーションや作話が発生します。作話によってモデルは不正確なコンテンツを生成し、まるで信頼できる事実であるかのようにユーザーに表示されてしまいます。ChatGPTに関連するこの傾向は、Hicks氏らによる2024年の論文で詳細に調査されています13

モデル・バイアス

モデル・バイアスとは、トレーニング・データに基づくモデルの予測と現実世界で実際に起きていることの不一致を指します。GPTは大量のインターネット・データでトレーニングされており、このコンテンツは人間によって作成されたものであるため、時には意図的に、多くの場合は無自覚に、差別的な見解が含まれる場合があります。AI が警察、医療、その他の日常生活の分野に取り入れられるにつれて、 AIのバイアスが現実世界に影響を与える可能性があります

関連ソリューション
基盤モデル

watsonxプラットフォームにある基盤モデルのIBMライブラリーを探索し、ビジネスに合わせて自信を持って生成AIを拡張します。

watsonx.aiをご覧ください。
人工知能ソリューション

業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。

AIソリューションはこちら
AIコンサルティングとサービス

AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。

AIサービスはこちら
次のステップ

ビジネスに合わせて生成AIを確実に拡張できるように、IBM watsonxプラットフォームにあるIBMライブラリーの基盤モデルの詳細を学びましょう。

watsonx.aiの詳細はこちら AIソリューションはこちら
脚注

1 「Hello GPT-4o」、OpenAI社、2024年5月13日

2「Attention Is All You Need」、Vaswaniら、2017年6月12日

3 「Live demo of GPT-4o realtime translation」、OpenAI社、2024年5月13日

「GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE」、Patel & Wong、2023年7月10日

5「Better language models and their implications」、OpenAI社、2019年2月14日

6「Exclusive: OpenAI Lobbied the E.U. to Water Down AI Regulation」、Perrigo、2023年6月20日

7「A Computer Scientist Breaks Down Generative AI's Hefty Carbon Footprint」、Saenkoら、2023年5月25日

8「Microsoft Readies AI Chip as Machine Learning Costs Surge」、GardizyおよびMa、2023年4月18日

9 「GenAI: Too Much Spend, Too Little Benefit?」 、Nathan、Grimberg 、Rhodes、2024年6月25日

10 OpenAIプラットフォーム、OpenAI社

11 「Case 1:23-cv-11195」、Barronら、2023年12月27日

12「Scarlett Johansson says a ChatGPT voice is ‘eerily similar’ to hers and OpenAI is halting its use」、Grantham-Philips、2024年5月21日

13 「ChatGPT is bullshit」、Hicksら、2024年6月8日