主页 topics 什么是语音识别? 什么是语音识别?
了解语音识别的历史及其在当今世界的各种应用
订阅 IBM 时事通讯
计算机生成的抽象图像,在漩涡中显示许多彩色线条
什么是语音识别?

语音识别也称为自动语音识别 (ASR)、计算机语音识别或语音转文本,它能够让一个程序来处理将人类语音转变为书面格式的任务。 虽然人们常常会将语音识别与声音识别混淆,但语音识别专注于将语音从口头格式转换为文本,而声音识别则旨在识别个人用户的声音。

自 1962 年发布“Shoebox”以来,IBM 在语音识别领域一直扮演着重要角色。 这款语音识别机器能够识别 16 个不同的单词,它推动了贝尔实验室从上世纪 50 年代开始在语音识别方面的研究。 然而,IBM 并没有就此止步,而是多年来不断创新,于 1996 年推出了  VoiceType Simply Speaking 应用程序。 这款语音识别软件的词汇量达到 42,000 个单词,支持英语和西班牙语,还有一个包含 100,000 个单词的拼写词典。 虽然语音技术在早期的词汇量有限,但如今已广泛应用于汽车、科技和医疗保健等众多行业。 由于深度学习和大数据技术的进步,才在最近几年又加快了语音技术的采用。 研究(链接位于 ibm.com 外部)表明,到 2025 年,这个市场的价值预计将达到 249 亿美元。

主要产品

IBM Watson Speech to Text

IBM Watson Text to Speech

有效语音识别的主要功能

现如今已出现了许多语音识别应用程序和设备,但更高级的解决方案都使用了 AI机器学习。 它们整合了音频和语音信号的语法、句法、结构和组成,以便能够理解和处理人类语音。 理想情况下,它们“边走边学”,即随着每次互动来不断完善响应。

最好的系统还允许组织根据他们的具体要求来定制和调整技术 - 从语言和语音细微差别到品牌识别。 例如:

  • 语言加权:通过对超出基本词汇表范畴但经常使用的特定词(例如产品名称或行业术语)进行加权来提高精确度。
  • 发言人标注:输出一个转录,其中提及或标记了每个发言人对多参与者对话的贡献。
  • 声学训练:参加业务的声学方面的训练。 训练系统以使其适应声学环境(如呼叫中心的环境噪声)和扬声器风格(如音调、音量和语速)。
  • 脏话过滤:使用过滤器来识别某些单词或短语并净化语音输出。

与此同时,语音识别也在不断进步。 IBM 等公司正在多个领域取得进展,以求进一步改善人机交互。

 

语音识别算法

人类语音的变幻莫测给语音识别技术的发展带来了挑战。 它被认为是计算机科学中最复杂的领域之一,因为它涉及到语言学、数学和统计学。 语音识别器由几个组件(例如,语音输入、特征提取、特征向量、解码器和单词输出)组成。 解码器利用声学模型、发音词典和语言模型来确定适当的输出。

评估语音识别技术的准确率,即单词错误率 (WER) 和速度。 许多因素都会影响单词错误率,例如发音、口音、音调、音量和背景噪音。 达到人类同等水平(即交谈的双方的错误率相当)长期以来一直是语音识别系统的目标。 Lippmann 的研究(链接位于 ibm.com 外部)(PDF, 352 KB) 估计单词错误率约为 4%,但很难重现此研究报告的结果。

深入了解 IBM 如何在这方面取得长足进步并在语音识别领域创造新的行业记录。

使用多种算法和计算技术将语音识别为文本并提高转录的准确性。 下面简要介绍了一些最常用的方法:

  • 自然语言处理 (NLP):虽然 NLP 不一定是用于语音识别的特定算法,但它应用于人工智能领域,专注于通过语音和文本进行的人机交互。 许多移动设备都在其系统中纳入了语音识别功能,用于执行语音搜索(如 Siri),或者提供更方便的短信服务。 
  • 隐马尔可夫模型 (HMM):隐马尔可夫模型建立在马尔可夫链模型的基础之上,该模型规定给定状态的概率取决于当前状态,而不是其先前状态。 虽然马尔可夫链模型对于可观察事件(例如文本输入)很有用,但隐马尔可夫模型允许我们将隐藏事件(例如词性标签)合并到概率模型中。 它们将用作语音识别中的序列模型,用于为序列中的每个单元(即单词、音节、句子等)分配标签。 这些标签使用所提供的输入来创建映射,以便能够确定最合适的标签序列。
  • N-gram:这是最简单的语言模型 (LM),可以为句子或短语分配概率。 N-gram 是由 N 个单词组成的序列。 例如,“order the pizza”是一个 3-gram,而“please order the pizza”是一个 4-gram。 将使用语法和某些单词序列的概率来提高识别率和准确性。
  • 神经网络:神经网络主要用于深度学习算法,通过节点层模拟人脑的互连性来处理训练数据。 每个节点由输入、权重、偏差(或阈值)和输出组成。 如果该输出值超过给定的阈值,它会“触发”或激活节点,并将数据传递到网络中的下一层。 神经网络通过监督式学习来学习这个映射函数,并通过梯度下降过程根据损失函数进行调整。  虽然神经网络往往更准确并且可以接受更多数据,但代价是性能下降,因为与传统语言模型相比,它们的训练速度往往更慢。
  • 发言人分类 (SD):发言人分类算法通过发言人身份来识别语音并对其进行分段。 它可帮助程序更好地区分对话中的个人,呼叫中心经常运用此算法来区分客户与销售客服。
语音识别用例

如今,许多行业都在运用语音技术来帮助企业和消费者节省时间,甚至是挽救生命。 一些示例包括:

汽车:语音识别器通过在车载收音机中启用声控导航系统和搜索功能来改善驾驶员安全性。

科技:虚拟助手越来越多地融入到我们的日常生活当中,尤其是在我们的移动设备上。 我们可以在智能手机上(例如通过 Google Assistant 或 Apple Siri)使用语音命令来访问虚拟助手以及执行语音搜索等任务,或者通过我们的扬声器、Amazon Alexa 或 Microsoft Cortana 来播放音乐。 它们只会继续融入到我们日常使用的产品中,从而推动“物联网”的发展。

医疗保健:医生和护士利用听写应用程序来捕获和记录患者的诊断和治疗记录。

销售:在销售中有多个地方会用到语音识别技术。 它可以帮助呼叫中心转录客户与客服之间的数千个电话,从而确定常见的呼叫模式和问题。 AI 聊天机器人还可以通过网页与客户交谈,回答常见查询并解决基本请求,而无需等待联络中心客服来处理。 在这两种情况下,语音识别系统都可以帮助缩短解决消费者问题的时间。

安全:随着技术融入我们的日常生活,安全协议变得越来越重要。 基于语音的认证可增加一个可行的安全层。

相关解决方案
IBM Watson® Speech to Text

使用基于 AI 的语音识别和转录功能将语音转换为文本。

探索 IBM Watson Speech to Text
IBM Watson® Text to Speech

将文本转换为各种语言和声音的自然语音。

探索 IBM Watson Text to Speech
IBM Cloud Pak® 解决方案

基于 AI 的混合云软件。

探索 Cloud Pak 解决方案
资源 了解 IBM Watson Speech to Text 技术如何使用基于 AI 的语音识别和转录

为各种用例启用多种语言的语音转录,包括但不限于客户自助服务、客服协助和语音分析。

翻译应用程序的准确率达 95%

了解 Lingmo 如何使用更少的数据增强语音识别和模型训练。

IBM Cloud Pak 数字化转型之路

了解如何做到与时俱进,重新思索如何使用云、AI 和自动化等技术来加速创新,满足不断变化的客户期望。

采取下一步行动

IBM 率先开发了语音识别工具和服务,让组织能够实现复杂业务流程的自动化,同时获得重要的业务洞察。IBM Watson Speech to Text 是一种云原生解决方案,使用深度学习 AI 算法来应用语法、语言结构和音频/语音信号合成方面的知识,创建可定制的语音识别功能,从而实现最佳的文本转录。

立即试用 IBM Watson Speech to Text