什么是语音识别?

什么是语音识别?

语音识别,也称为自动语音识别 (ASR)、计算机语音识别或语音转文本,是一种支持程序将人类语音处理成书面格式的功能。

虽然语音识别通常与语音识别混淆,但语音识别侧重于将语音从口头格式转换为文本格式,而语音识别仅旨在识别单个用户的声音。

自 1962 年发布“Shoebox”以来,IBM 在语音识别领域一直发挥着重要作用。这台机器能够识别 16 个不同的单词,它推动了贝尔实验室自上世纪 50 年代在语音识别方面的初步研究。然而,IBM 并未就此止步,经过多年来不断创新,于 1996 年推出了 VoiceType Simply Speaking 应用程序。这款语音识别软件的词汇量达到 42,000 个单词,支持英语和西班牙语,还自带包含 100,000 个单词的拼写词典。

虽然语音技术早期的词汇量有限,但如今已广泛应用于汽车、技术和医疗保健等行业。由于深度学习和大数据的进步,其采用近年来才得以继续加速。研究表明,到 2025 年,该市场的价值预计将达到 249 亿美元。

专家为您带来最新的 AI 趋势

获取有关最重要且最有趣的 AI 新闻的精选洞察分析。订阅我们的每周 Think 时事通讯。请参阅 IBM 隐私声明

谢谢!您已订阅。

您的订阅将以英语提供。您会在每份时事通讯中找到一个取消订阅链接。您可以在此处管理您的订阅或取消订阅。有关更多信息,请参阅我们的 IBM 隐私声明

有效语音识别的关键功能

可以使用的语音识别应用程序和设备有很多,但更高级的解决方案采用人工智能 (AI) 和机器学习。它们整合了语法、句法、结构以及音频和语音信号的构成,以理解和处理人类语音。理想情况下,它们可在实践中学习,每次互动都会不断改进反应。

最好的系统还支持组织根据其特定需求定制和调整技术,这包括从语言和语音细微差别到品牌识别。例如:

  • 语言加权:除了基础词汇中已有的术语外,还可对经常出现的特定词汇(如产品名称或行业术语)进行加权,从而提高精确度。

  • 说话者标记:输出一个转录文本,对多方对话中每位参与者的发言进行引用或标注。

  • 声学训练:关注业务的声学方面。训练系统以适应声学环境(如客户服务中心的环境噪音)和说话者的风格(如语音音调、音量和语速)。

  • 亵渎语言过滤:使用过滤器识别某些词汇或短语,并对语音输出进行过滤。

同时,语音识别继续发展。诸如 IBM 之类的公司正在多个领域取得进展,以更好地改善人机交互。

Mixture of Experts | 12 月 12 日,第 85 集

解码 AI:每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见,带来最新的 AI 资讯与深度解析。

语音识别算法

人类语言的瞬息万变给发展带来了挑战。这被视为是计算机科学最复杂的领域之一 - 涉及语言学、数学和统计学。语音识别器由多个组件构成,例如语音输入、特征提取、特征向量、解码器和词汇输出。解码器利用声学模型、发音词典和语言模型来确定合适的输出。

评估语音识别技术的准确率,即词汇错误率 (WER) 和速度。许多因素会影响词汇错误率,例如发音、口音、音高、音量和背景噪音。达到与人类同等的水平(即错误率与两个人说话时的错误率相当)一直是语音识别系统的目标。Lippmann 的研究估计,词错误率约为 4%,但很难复现该论文的结果。

各种算法和计算技术已用于将语音识别为文本,并提高转录的准确性。下面简要介绍几种最常用的方法:

  • 自然语言处理 (NLP):虽然 NLP 不一定是用于语音识别的特定算法,但它属于人工智能范畴,专注于通过语音和文本进行的人机交互。许多移动设备将语音识别集成到其系统中,用于执行语音搜索(如 Siri),或者提供更方便的短信服务。

  • 隐马尔可夫模型 (HMM):隐马尔可夫模型以马尔可夫链模型为基础,规定给定状态的概率取决于当前状态,而非其先前状态。虽然马尔可夫链模型对于可观察事件(例如文本输入)很有用,但隐马尔可夫模型可支持我们将隐藏事件(例如词性标签)合并到概率模型中。它们被用作语音识别中的序列模型,为序列中的每个单元分配标签,即单词、音节、句子等。这些标签使用提供的输入创建映射,使其能够确定最合适的标签序列。

  • N-grams:这是最简单的语言模型 (LM) 类型,为句子或短语分配概率。N-gram 是 N 个单词的序列。例如,“order the pizza” 是三元语法或 3 元语法,而 “please order the pizza” 是 4 元语法。语法和某些单词序列的概率可用于改进识别和准确性。

  • 神经网络:主要用于深度学习算法,通过节点层模拟人脑的互连来处理训练数据。每个节点由输入、权重、偏置(或阈值)和输出组成。如果该输出值超过给定阈值,将“触发”或激活节点,并将数据传递到网络中的下一层。神经网络通过监督学习来学习此映射函数,并通过梯度下降过程,基于损失函数进行调整。虽然神经网络往往更准确,可以接受更多的数据,但这会以性能效率为代价,因为与传统语言模型相比,其训练速度往往较慢。

  • 声纹分割聚类 (SD):声纹分割聚类算法根据说话者身份来识别和分割语音。这有助于程序更好地区分对话中的个人,并经常应用于客户服务中心,以区分客户和销售代理。

语音识别用例

如今,许多行业都在利用语音技术的不同应用,帮助企业和消费者节省时间,甚至挽救生命。部分示例包括:

汽车:语音识别器可在汽车收音机中启用声控导航系统和搜索功能,从而提高驾驶安全性。

技术:虚拟代理越来越多地融入我们的日常生活中,尤其是在我们的移动设备中。我们使用语音命令,通过智能手机访问虚拟代理,例如通过 Google Assistant 或 Apple 的 Siri 来执行语音搜索等任务,或者通过扬声器、Amazon 的 Alexa 或 Microsoft 的 Cortana 来播放音乐。虚拟代理只会继续集成到我们使用的日常产品中,从而推动“物联网”运动。

医疗保健:医护人员利用口述记录应用程序捕捉和记录病人的诊断和治疗记录。

销售:语音识别技术在销售领域的应用多样。它可以帮助客户服务中心转录客户和代理之间的数千次通话,以识别常见的通话模式和问题。AI 聊天机器人还可以通过网页与人沟通、回答常见问题并解决基本请求,而无需等待客服中心代理空闲。在这两个实例中,语音识别系统都有助于缩短解决消费者问题的时间。

安全:随着技术融入我们的日常生活,安全协议日益受到重视。基于语音的身份验证增加了可行的安全级别。

相关解决方案
IBM watsonx Orchestrate

使用 IBM® watsonx Orchestrate 轻松设计可扩展的 AI 助手和代理、自动执行重复任务并简化复杂流程。

探索 watsonx Orchestrate
自然语言处理工具和 API

通过强大灵活的库、服务和应用组合,加速实现人工智能的商业价值。

深入了解 NLP 解决方案
AI 咨询与服务

通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。

深入了解人工智能服务
采取后续步骤

使用 IBM® watsonx Orchestrate 轻松设计可扩展的 AI 助手和代理、自动执行重复任务并简化复杂流程。

探索 watsonx Orchestrate 深入了解 NLP 解决方案