语音识别也称为自动语音识别 (ASR)、计算机语音识别或语音转文本,它能够让一个程序来处理将人类语音转变为书面格式的任务。 虽然人们常常会将语音识别与声音识别混淆,但语音识别专注于将语音从口头格式转换为文本,而声音识别则旨在识别个人用户的声音。
自 1962 年发布“Shoebox”以来,IBM 在语音识别领域一直扮演着重要角色。 这款语音识别机器能够识别 16 个不同的单词,它推动了贝尔实验室从上世纪 50 年代开始在语音识别方面的研究。 然而,IBM 并没有就此止步,而是多年来不断创新,于 1996 年推出了 VoiceType Simply Speaking 应用程序。 这款语音识别软件的词汇量达到 42,000 个单词,支持英语和西班牙语,还有一个包含 100,000 个单词的拼写词典。 虽然语音技术在早期的词汇量有限,但如今已广泛应用于汽车、科技和医疗保健等众多行业。 由于深度学习和大数据技术的进步,才在最近几年又加快了语音技术的采用。 研究(链接位于 ibm.com 外部)表明,到 2025 年,这个市场的价值预计将达到 249 亿美元。
IBM Watson Speech to Text
IBM Watson Text to Speech
现如今已出现了许多语音识别应用程序和设备,但更高级的解决方案都使用了 AI 和机器学习。 它们整合了音频和语音信号的语法、句法、结构和组成,以便能够理解和处理人类语音。 理想情况下,它们“边走边学”,即随着每次互动来不断完善响应。
最好的系统还允许组织根据他们的具体要求来定制和调整技术 - 从语言和语音细微差别到品牌识别。 例如:
与此同时,语音识别也在不断进步。 IBM 等公司正在多个领域取得进展,以求进一步改善人机交互。
人类语音的变幻莫测给语音识别技术的发展带来了挑战。 它被认为是计算机科学中最复杂的领域之一,因为它涉及到语言学、数学和统计学。 语音识别器由几个组件(例如,语音输入、特征提取、特征向量、解码器和单词输出)组成。 解码器利用声学模型、发音词典和语言模型来确定适当的输出。
评估语音识别技术的准确率,即单词错误率 (WER) 和速度。 许多因素都会影响单词错误率,例如发音、口音、音调、音量和背景噪音。 达到人类同等水平(即交谈的双方的错误率相当)长期以来一直是语音识别系统的目标。 Lippmann 的研究(链接位于 ibm.com 外部)(PDF, 352 KB) 估计单词错误率约为 4%,但很难重现此研究报告的结果。
深入了解 IBM 如何在这方面取得长足进步并在语音识别领域创造新的行业记录。
使用多种算法和计算技术将语音识别为文本并提高转录的准确性。 下面简要介绍了一些最常用的方法:
如今,许多行业都在运用语音技术来帮助企业和消费者节省时间,甚至是挽救生命。 一些示例包括:
汽车:语音识别器通过在车载收音机中启用声控导航系统和搜索功能来改善驾驶员安全性。
科技:虚拟助手越来越多地融入到我们的日常生活当中,尤其是在我们的移动设备上。 我们可以在智能手机上(例如通过 Google Assistant 或 Apple Siri)使用语音命令来访问虚拟助手以及执行语音搜索等任务,或者通过我们的扬声器、Amazon Alexa 或 Microsoft Cortana 来播放音乐。 它们只会继续融入到我们日常使用的产品中,从而推动“物联网”的发展。
医疗保健:医生和护士利用听写应用程序来捕获和记录患者的诊断和治疗记录。
销售:在销售中有多个地方会用到语音识别技术。 它可以帮助呼叫中心转录客户与客服之间的数千个电话,从而确定常见的呼叫模式和问题。 AI 聊天机器人还可以通过网页与客户交谈,回答常见查询并解决基本请求,而无需等待联络中心客服来处理。 在这两种情况下,语音识别系统都可以帮助缩短解决消费者问题的时间。
安全:随着技术融入我们的日常生活,安全协议变得越来越重要。 基于语音的认证可增加一个可行的安全层。