Text to Speech(TTS)(テキストから音声への変換)は、デジタル・インターフェース上のテキストを自然な音声に変換するテクノロジーの一種です。「読み上げ」技術、コンピューター生成音声、または音声合成とも呼ばれます。ほとんどの企業はテキスト読み上げ技術をアプリケーション・プログラミング・インターフェース(API)として提供しています。
もともと、TTSシステムは、視覚障害や失読症など学習障害を持つユーザーが特定のサービスにアクセスしやすくするためのテクノロジーとして開発されました。現在、人工知能を搭載した音声ジェネレーターにより、Text to Speechソフトウェアが人間の音声をより適切に模倣できるようになりました。カスタマー・サービスの電話応対、AIが生成するポッドキャスト、ナレーション、オーディオブックのナレーションなど、新しいユースケースの相次いで作り出しています。
最初の電気式音声合成装置は1930 年代頃に登場しました1 。初期の装置は機能が限られており、操作が複雑でした。
コンピューターが登場すると、1950年代後半からプログラマーらは、音源となる音声ファイルの大規模なデータベースにアクセスするアルゴリズムに取り組みました。これらのアルゴリズムは、テキスト単位に一致する音を見つけて、音声要素をつなぎ合わせます。初期の頃、生成された声はロボットのようでした。モデリング作業で言語の特徴付けが向上するにつれて、テキストから音声への変換も改善されました。
2000年代にディープラーニングとニューラル・ネットワークが登場すると、プログラマーは音声の録音を使用してウェーブを直接モデリングし、よりリアルな高品質の音声が実現しました。 並行して、コンピューター科学者たちは音声認識ソフトウェアと自然言語処理を改良していました。対話型AIの開発は、Speech to TextとText to Speechのテクノロジーを組み合わせることにかかっていました。
人工知能と機械学習により、自然な音声の生成が容易になりましたが、ディープフェイクなどの新たな論争の領域が開かれました。 テクノロジー企業は、音声のディープフェイクを検知するために、リアルタイム音声分析システムの開発に取り組んでいます。
ディープラーニング技術により、音声合成モデルはより多くのデータを解析し、単語とその音響的特徴との関係をよりよく理解することができます。これらすべてのテクノロジーにより、AIの声はより自然に聞こえるようになっています。テキストから音声への変換は、言語分析と音声合成の両方を含む多段階のプロセスです。
Text to Speechの主な構成要素は次のとおりです。
言語分析
音声合成
モデル内のディープ・ニューラル・ネットワークには、音声データセットと、英語や場合によってはその他の言語の対応する転記がインプットされます。このインプットにより、単語が音声、アクセント、ピッチ、音量、口調、リズムなどとどのように一致するかシステムが理解できるようにします。テキスト・インプットを受け取ると、Text to Speechモデルは単語、句読点、文構造を分析します。略語と表現を拡張し、単語の長さを計算し、一致する発音を見つけ、語句と文の韻律を生成できます。
テキストの分析後、モデルは2段階のプロセスを用いてそれを音声アウトプットに変換します。
ステップ1: モデルはテキストをスペクトログラムのような時間軸に沿った特徴に変換します。これらの特徴は、経時的な周波数の変化をマッピングするために使用されます。これにより、音声の詳細な特徴と、文脈に応じた単語の発音、強調、タイミングなどの要素が捉えられます。
ステップ2:音声符号化(ボコーダ)ネットワークは、時間整合された特徴を音声波形に変換し、コンピューターが自然な音声に変換できるようにします。特定のText to Speechモデルでは、音量、ピッチ、速度を変更したり、さまざまな言語、アクセント、話し方を選択したりすることができます。
スマートフォンなどの多くのデバイスには、Text to Speechシステムが組み込まれています。Text to Speechは、ソフトウェア・プログラム、ブラウザー拡張機能、Webベースのツール、またはダウンロード可能なアプリとしても利用できます。
Text to Speechテクノロジーはもともと、幅広いユーザーのアクセシビリティを高め、視覚障害や読書障害を持つ人々がコンピューターやその他のデバイスを介してテキストと対話できるようにする方法として開発されました。たとえば、スティーヴン・ホーキングはText to Speechテクノロジーの一種を使用しています。
それ以来、Text to speechは、主に読み上げが実際的ではない場合や、人間のオペレーターの時間を節約できる可能性がある場合など、より幅広いユースケースに進化してきました。ここでは、このテクノロジーの主な用途をいくつか紹介します。
音声コンテンツ
教育
チャットボットとバーチャル・アシスタント
ナビゲーション
多言語コミュニケーションと言語学習
メディアとエンターテインメント
医療
Text to Speechソフトウェアは、デジタル・テキスト、書籍、授業、ガイド、指示などを読み上げて、eラーニングやオンライン・トレーニングを支援します。報道機関は、このテクノロジーを使用して記事を音声形式に変換することもできます。
Text to Speech機能により、生徒は文章に注意を払って一緒に読むことができ、単語と発音を関連付けることができます。また、生徒が新しい文法構造や語彙に触れることで、読み取りの理解や取り組みを向上させることもできます。また、視覚障害や失読症などの学習障害を持つ人々を支援することもできます。Text to speechでは、学生が作成した文章を読み上げることがで、エッセイの課題の校正に役立ちます。
AppleのSiriやMicrosoftのCortanaのようなバーチャル・アシスタントは、ユーザーのリクエストを理解し、自然な会話形式でユーザーと対話するために、Text to SpeechとSpeech to Textを組み合わせます。また、ユーザーが運転中に通知を放送したり、テキストを読み上げたりすることもできます。
企業環境では、TTSシステムは、カスタマー・サービスをよりインタラクティブで自然なものにすることで、ユーザー体験の質を高めることができます。TTSシステムは、電話に応答したり、オプションを提示したり、ユーザーに応答したりすることができます。このような機能は、自動電話システムの重要な部分です。
Text to speech機能により、GPS やその他のマッピングアプリがドライバーにリアルタイムで指示を伝達できるようになります。Text to Speech以前は、ナビゲーション装置は事前に録音された音声を利用し、左折や右折などのプロンプトを設定していました。Text to Speechにより、運転指示はよりパーソナライズされました。たとえば、GPSは左折する必要がある道路を正確に教えてくれます。
Text to Speechは、たとえば、Google翻訳のようなアプリを通じて、ユーザーがさまざまな言語でコミュニケーションするのに役立ちます。このタイプのアプリ機能は、音声をある言語から別の言語に翻訳でき、動画コンテンツのダビングに使用されることがあります。言語学習者は自然な音声に触れられるため、さまざまな単語がどのように発音されるかを理解できます。
TTSテクノロジーが進歩するにつれて、メディア制作のコスト節約に使用できるようになりました。たとえば、このテクノロジーは、ビデオ・ゲームの解説やナレーション、キャラクターのナレーションを生成する場合があります。一部のスタジオでは、声優と協力して、 AI 声の性能を向上させています。
医療機関では、Text to Speechテクノロジーを使用して、わかりやすい方法で患者とコミュニケーションを取っています。これには、Webページやソーシャル・メディアに投稿されたコンテンツや文献の音声版の追加も含まれます。一部の医療機関では、特定の医療機器の使用方法に関する音声ガイド付きの説明も追加しています。生成AI搭載の音声インターフェースは、電話で患者に今後の予約をリマインドしたり、ニュースやチャートの更新を通知したりするのにも役立ちます。このような機能は、視覚障害、言語障害、運動障害、学習障害のある患者にとって特に重要です。
1 Text to Speech(音声合成)、アメリカ規格協会、2015年12月7日
IBM® watsonx Orchestrateを使用すると、スケーラブルなAIアシスタントとエージェントを簡単に設計し、反復的なタスクを自動化し、複雑なプロセスを簡素化できます。
ライブラリー、サービス、アプリケーションの強力かつ柔軟なポートフォリオにより、人工知能のビジネス価値を促進します。
AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。