什么是语音识别？| 语音识别算法| 语音识别用例

什么是语音识别？

语音识别，也称为自动语音识别 (ASR)、计算机语音识别或语音转文本，是一种支持程序将人类语音处理成书面格式的功能。

虽然语音识别通常与语音识别混淆，但语音识别侧重于将语音从口头格式转换为文本格式，而语音识别仅旨在识别单个用户的声音。

自 1962 年发布“Shoebox”以来，IBM 在语音识别领域一直发挥着重要作用。这台机器能够识别 16 个不同的单词，它推动了贝尔实验室自上世纪 50 年代在语音识别方面的初步研究。然而，IBM 并未就此止步，经过多年来不断创新，于 1996 年推出了 VoiceType Simply Speaking 应用程序。这款语音识别软件的词汇量达到 42,000 个单词，支持英语和西班牙语，还自带包含 100,000 个单词的拼写词典。

虽然语音技术早期的词汇量有限，但如今已广泛应用于汽车、技术和医疗保健等行业。由于深度学习和大数据的进步，其采用近年来才得以继续加速。研究表明，到 2025 年，该市场的价值预计将达到 249 亿美元。

行业时事通讯

专家为您带来最新的 AI 趋势

获取有关最重要且最有趣的 AI 新闻的精选洞察分析。订阅我们的每周 Think 时事通讯。请参阅 IBM 隐私声明。

有效语音识别的关键功能

可以使用的语音识别应用程序和设备有很多，但更高级的解决方案采用人工智能 (AI) 和机器学习。它们整合了语法、句法、结构以及音频和语音信号的构成，以理解和处理人类语音。理想情况下，它们可在实践中学习，每次互动都会不断改进反应。

最好的系统还支持组织根据其特定需求定制和调整技术，这包括从语言和语音细微差别到品牌识别。例如：

语言加权：除了基础词汇中已有的术语外，还可对经常出现的特定词汇（如产品名称或行业术语）进行加权，从而提高精确度。
说话者标记：输出一个转录文本，对多方对话中每位参与者的发言进行引用或标注。
声学训练：关注业务的声学方面。训练系统以适应声学环境（如客户服务中心的环境噪音）和说话者的风格（如语音音调、音量和语速）。
亵渎语言过滤：使用过滤器识别某些词汇或短语，并对语音输出进行过滤。

同时，语音识别继续发展。诸如 IBM 之类的公司正在多个领域取得进展，以更好地改善人机交互。

Mixture of Experts | 12 月 12 日，第 85 集

解码 AI：每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见，带来最新的 AI 资讯与深度解析。

观看 Mixture of Experts 所有剧集

语音识别算法

人类语言的瞬息万变给发展带来了挑战。这被视为是计算机科学最复杂的领域之一 - 涉及语言学、数学和统计学。语音识别器由多个组件构成，例如语音输入、特征提取、特征向量、解码器和词汇输出。解码器利用声学模型、发音词典和语言模型来确定合适的输出。

评估语音识别技术的准确率，即词汇错误率 (WER) 和速度。许多因素会影响词汇错误率，例如发音、口音、音高、音量和背景噪音。达到与人类同等的水平（即错误率与两个人说话时的错误率相当）一直是语音识别系统的目标。Lippmann 的研究估计，词错误率约为 4%，但很难复现该论文的结果。

各种算法和计算技术已用于将语音识别为文本，并提高转录的准确性。下面简要介绍几种最常用的方法：

自然语言处理 (NLP)：虽然 NLP 不一定是用于语音识别的特定算法，但它属于人工智能范畴，专注于通过语音和文本进行的人机交互。许多移动设备将语音识别集成到其系统中，用于执行语音搜索（如 Siri），或者提供更方便的短信服务。
隐马尔可夫模型 (HMM)：隐马尔可夫模型以马尔可夫链模型为基础，规定给定状态的概率取决于当前状态，而非其先前状态。虽然马尔可夫链模型对于可观察事件（例如文本输入）很有用，但隐马尔可夫模型可支持我们将隐藏事件（例如词性标签）合并到概率模型中。它们被用作语音识别中的序列模型，为序列中的每个单元分配标签，即单词、音节、句子等。这些标签使用提供的输入创建映射，使其能够确定最合适的标签序列。
N-grams：这是最简单的语言模型 (LM) 类型，为句子或短语分配概率。N-gram 是 N 个单词的序列。例如，“order the pizza” 是三元语法或 3 元语法，而 “please order the pizza” 是 4 元语法。语法和某些单词序列的概率可用于改进识别和准确性。
神经网络：主要用于深度学习算法，通过节点层模拟人脑的互连来处理训练数据。每个节点由输入、权重、偏置（或阈值）和输出组成。如果该输出值超过给定阈值，将“触发”或激活节点，并将数据传递到网络中的下一层。神经网络通过监督学习来学习此映射函数，并通过梯度下降过程，基于损失函数进行调整。虽然神经网络往往更准确，可以接受更多的数据，但这会以性能效率为代价，因为与传统语言模型相比，其训练速度往往较慢。
声纹分割聚类 (SD)：声纹分割聚类算法根据说话者身份来识别和分割语音。这有助于程序更好地区分对话中的个人，并经常应用于客户服务中心，以区分客户和销售代理。

语音识别用例

如今，许多行业都在利用语音技术的不同应用，帮助企业和消费者节省时间，甚至挽救生命。部分示例包括：

汽车：语音识别器可在汽车收音机中启用声控导航系统和搜索功能，从而提高驾驶安全性。

技术：虚拟代理越来越多地融入我们的日常生活中，尤其是在我们的移动设备中。我们使用语音命令，通过智能手机访问虚拟代理，例如通过 Google Assistant 或 Apple 的 Siri 来执行语音搜索等任务，或者通过扬声器、Amazon 的 Alexa 或 Microsoft 的 Cortana 来播放音乐。虚拟代理只会继续集成到我们使用的日常产品中，从而推动“物联网”运动。

医疗保健：医护人员利用口述记录应用程序捕捉和记录病人的诊断和治疗记录。

销售：语音识别技术在销售领域的应用多样。它可以帮助客户服务中心转录客户和代理之间的数千次通话，以识别常见的通话模式和问题。AI 聊天机器人还可以通过网页与人沟通、回答常见问题并解决基本请求，而无需等待客服中心代理空闲。在这两个实例中，语音识别系统都有助于缩短解决消费者问题的时间。

安全：随着技术融入我们的日常生活，安全协议日益受到重视。基于语音的身份验证增加了可行的安全级别。

您的组织准备好利用生成式 AI 吗？

了解五种关键编排功能，这些功能可以帮助组织有效应对实施生成式 AI 的挑战。

什么是语音识别？