什么是语音转文本?

女计算机程序员在办公室办公桌前的计算机上写代码的后视图

作者

Charlotte Hu

IBM Content Contributor

Amanda Downie

Staff Editor

IBM Think

文本转语音 (TTS) 是一种将数字接口上的文本转换为听起来自然的音频的技术。它也可以称为“大声朗读”科技、计算机生成的语音或语音合成。大多数公司提供文本转语音技术作为应用程序编程接口 (API)。

最初,语音转文本系统作为一种技术开发,可以让视障人士和有阅读障碍等学习障碍的用户更容易使用某些服务。现在,人工智能语音生成器让语音转文本软件能够更好地模仿人类语音。这开辟了一系列新的用例,例如客户服务电话应答、AI 生成的播客、配音和有声读物。

文本转语音的演变

最早的电子语音合成器出现在 20 世纪 30 年代1。早期的机器功能有限,且操作复杂。

计算机出现后,20 世纪 50 年代后期的程序员致力于研究可能访问大型音频文件数据库作为其源声音的算法。这些算法可能会找到文本单元的声音匹配项,并将语音元素拼在一起。早期,生成的声音听起来像机器人的声音。随着建模工作能够更好地描述语言的特征,文本转语音技术算法也得到了改进。

当 21 世纪初深度学习技术和神经网络出现时,程序员开始直接使用语音录音对波形进行建模,从而产生听起来更逼真的高质量语音。与此同时,计算机科学家正在改进语音识别软件和自然语言处理技术。会话式 AI 的发展取决于语音转文本和文本转语音技术相结合。

尽管 AI 和机器学习使得生成听上去自然的语音变得更加容易,但它们也开启了新的争议领域,例如深度伪造。科技公司正在致力于开发实时语音分析系统,以检测音频深度伪造。

黑人女性正在使用笔记本电脑

掌握最新科技新闻

在 Think 时事通讯中每周获取有关 AI、安全、云等领域的深入洞察分析、研究和专家观点。

文本转语音是如何工作的?

深度学习技术使语音合成模型能够解析更多数据,并更好地理解单词与其声学特征之间的关系。这一切让 AI 语音听起来更加自然。将文本转换为语音是一个多步骤过程,涉及语言分析和语音合成。

文本转语音的主要组成部分是:

  • 语言分析

  • 语音合成

语言分析

模型中的深度神经网络被给予音频数据集和相应的英语(有时是其他语言)的转录文字。这有助于系统了解单词如何与语音匹配,以及重音、音调、音量、语气、节奏等。在接收到文本输入后,文本转语音模型会分析单词、标点符号和句子结构。它可以扩展缩写和表达,计算单词的持续时间,找到匹配的发音并描绘短语和句子的韵律。

语音合成

分析文本后,模型通过两步过程将其转换为语音输出。

  • 第 1 步:模型将文本转换为时间对齐的特征,如频谱图,用于映射频率随时间的变化。这可以捕捉语音中的详细特征,以及上下文相关的发音、重音和单词时间的因素。

  • 第 2 步:语音编码(声码器)网络可将时间对齐的特征转化为音频波形,计算机可将其转换为自然的语音。某些文本转语音模型允许用户改变音量、音调、速度并选择不同的语言、重音和说话风格。

许多设备(如智能手机)都内置了文本转语音系统。文本转语音也可以作为软件程序、浏览器扩展、基于网络的工具或可下载的应用程序使用。

Mixture of Experts | 12 月 12 日,第 85 集

解码 AI:每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见,带来最新的 AI 资讯与深度解析。

文本转语音的用途

文本转语音技术最初是作为一种提高广大用户无障碍访问性,并让有视觉障碍或阅读障碍的人士能够通过计算机和其他设备与文本交互的一种方式。例如,霍金就使用了一种版本的文本转语音技术。

自那时起,文本转语音技术已经发展出更广泛的用例,主要是那些阅读不便或可节省人工操作时间的场景。以下是该技术的一些主要应用场景。

  • 音频内容

  • 教育

  • 聊天机器人和虚拟助理

  • 导航

  • 多语言沟通和语言学习

  • 媒体和娱乐

  • 医疗保健

音频内容

文本转语音软件可以朗读数字文本、书籍、课程、指南、说明等,以辅助电子学习和在线培训。新闻机构还可以使用这项技术将其文章转换为音频格式。

教育

文本转语音功能可以帮助学生留意并跟读书面文本,使他们能够将单词与发音联系起来。当学生接触到新的语法结构或词汇时,它还可以提高阅读理解能力和参与度。它还可以帮助那些有视觉障碍或学习障碍(如阅读障碍)的人。文本转语音工具还可以大声朗读学生创作的书面作品,帮助他们校对论文作业。

聊天机器人和虚拟助理

虚拟助理(如 Apple 的 Siri 或 Microsoft 的 Cortana)将文本转语音与语音转文本相结合,以便理解用户请求,并以自然的对话方式与他们交互。它们还可以广播通知,并在用户开车时朗读文本。

在企业环境中,TTS 系统可以让客户服务更具互动性和更自然,从而提高用户体验质量。TTS 系统可以接听电话、提供选项和响应用户。它们是自动电话系统的关键部分。

导航

文本转语音功能使 GPS 和其他地图应用程序能够实时向驾驶员传递方向。在文本转语音之前,导航设备依赖于预先录制的语音并设置提示,例如左转或右转。通过文本转语音,驾驶指示变得更加个性化。例如,GPS 可以说出您应该左转的确切街道。

多语言沟通和语言学习

文本转语音可以帮助用户使用不同的语言进行交流,例如通过谷歌翻译等应用程序。此类应用程序功能可以将音频从一种语言翻译成另一种语言,可用于视频内容的配音。它可以帮助语言学习者接触自然语音,从而帮助他们理解不同单词的发音。

媒体和娱乐

随着 TTS 技术的进步,其将可用于节省媒体制作成本。例如,该技术可能会在视频游戏中生成评论和旁白,以及为角色生成画外音。一些工作室与人类配音演员合作,帮助提高 AI 声音的表现效果。

医疗保健

医疗保健组织使用文本转语音技术以易于理解的方式与患者沟通。这包括在其网页或社交媒体上添加所发布内容和文献的音频版本。一些机构还将添加有关如何使用某些医疗设备的语音引导说明。生成式人工智能驱动的语音界面还可以通过电话提醒患者即将到来的预约,或提醒他们了解新闻或有关其治疗计划的更新。这对于存在视觉障碍、语言问题、行动不便和学习障碍的患者尤其重要。

脚注

Text-to-Speech Technology (Speech Synthesis),American National Standards Institute,2015 年 12 月 7 日

相关解决方案
IBM watsonx Orchestrate

使用 IBM® watsonx Orchestrate 轻松设计可扩展的 AI 助手和代理、自动执行重复任务并简化复杂流程。

探索 watsonx Orchestrate
自然语言处理工具和 API

通过强大灵活的库、服务和应用组合,加速实现人工智能的商业价值。

深入了解 NLP 解决方案
AI 咨询与服务

通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。

深入了解人工智能服务
采取后续步骤

使用 IBM® watsonx Orchestrate 轻松设计可扩展的 AI 助手和代理、自动执行重复任务并简化复杂流程。

探索 watsonx Orchestrate 深入了解 NLP 解决方案