致力于从语音信息中捕获价值,开发的解决方案利用自动语音识别,识别出各种口音、方言、语言、声音,将这些信息转化为数字资产,这是 Cedat85 的使命。使用 IBM® Power Systems AC922 服务器,该公司加速了神经网络模型的训练,缩短了其解决方案的上市时间。
千百年来,人类利用语言快速有效地传达复杂的想法和情感。然而,如果不首先生成书面记录,就很难单独分析语音,而生成书面记录需要时间和资源。
语音识别技术旨在通过自动将语音转换为可分析的书面文本来改变这一现状。三十多年来,Cedat 85 在语音转文本解决方案领域不断取得突破,可帮助媒体、政府、金融服务、保险、技术、营销部门和联络中心的客户满足日益复杂的需求。
Cedat 85 董事总经理 Enrico Giannotti 解释道:“语音是一种非常复杂的现象。我们使用不同的语言、方言和语言模式说话。由于语音是灵活动态的,每天都有新的短语被发明出来,现有的词语也在不断地改变其含义,因此开发语音识别解决方案就像是在打一个移动的靶子。”
自 2002 年以来,Cedat 85 构建了复杂的神经网络来支持其语音转文本解决方案,其算法随着时间的推移变得更加复杂和准确。为了实现开发的下一个飞跃,该公司希望加快模型训练周期。此前,基础设施的限制意味着 Cedat 85 可能需要数周甚至数月的时间来训练神经网络模型。在训练完成之前,我们几乎无法了解模型的准确性,因此这个过程充满风险且耗时。
Giannotti 指出:“我们使用大量数据来训练我们的模型。尽管我们使用 GPU 增强了基础设施以加快处理速度,但仍然需要很长时间才能获得结果。每个项目都非常耗费时间和资源,以至于我们错失了不少机会。随着分析和语音解决方案的日益普及,语音转文本技术的新市场也在不断涌现。为了确保不输给竞争对手,我们决心加快开发步伐。”
当 Cedat 85 听说了旨在支持企业 AI 的 IBM Power Systems AC922 服务器时,它敏锐地抓住机会将此类服务器与其现有 GPU 加速基础架构进行了比较。
Giannotti 回忆道:“我们非常有兴趣了解 IBM 能否通过其最新一代 Power Systems 服务器兑现为 AI 工作负载提供前所未有的性能这一承诺。我们测试了这项技术,很快发现答案是肯定的;他们的表现明显优于我们之前的环境。”
Cedat 85 聘请 IBM 业务合作伙伴 Computer Gross Italia 的工作人员协助安装,几天之内,该平台便顺利启动并运行。不久之后,Cedat 85 中标了一个具有里程碑意义的项目:“保存我们的声音 (Save our Sounds)”,这是大英图书馆为保护英国的声音遗产而发起的一项倡议。Cedat 85 参与其中,帮助筹建了国家无线电档案馆,通过将语音转录成文本,保护英国各地无线广播电台过去和未来发出的音频材料。
Giannotti 表示:“‘保存我们的声音’是 Cedat 85 的一个重要里程碑。为了交付该项目,我们需要扩充模型。例如,这些模型必须要能识别英国存在的丰富多样的口音和方言,并掌握大量俗语。功能强大的全新 IBM 基础架构恰逢其时,可以为这些工作提供支持。”
Cedat 85 正利用数据和计算密集型 IBM Power Systems 服务器以极快的速度向客户提供高质量结果。通过缩短解决方案的上市时间,IBM 基础架构为公司带来了至关重要的竞争优势。
Giannotti 评论道:“利用 IBM Power Systems AC922 服务器,我们可以将神经网络模型的训练速度提高 2.4 倍。且至关重要的是,这种时间节省并不以牺牲准确性为代价。我们最近对一家政府客户进行了试运行,期间我们需要定制模型以适应不同的地区口音和方言。进花了几周时间,我们将英语语言模型应用于其用例时,模型准确性提高了近 10%,而在过去,这个过程需要花费几个月的时间。这一改进要归功于我们 AI 工程师的专业知识、我们的专有算法和 IBM 基础架构的超快处理能力。”
训练时间的缩短也降低了 Cedat 85 的风险,因为工程师不必等待很长时间才能确定神经网络模型是否需要微调。该公司承接项目的能力也有所提高,因而能够抓住新的机遇。
Giannotti 解释道:“部署 IBM Power Systems AC922 服务器后我们能够开展更多实验调查,因为我们可以尝试不同的工作,而不必担心基础架构一次需要花几个月的时间来训练有缺陷的模型。我们还可以更加积极地与现有客户和潜在客户合作,这有助于我们增加收入,并在几个月内即可获得 IBM 解决方案的投资回报。”
展望未来,Cedat 85 正在研究如何将其他 IBM 技术集成到其产品中。具体而言,该公司正在探索 IBM® Watson 工具如何帮助其客户从文本中发掘更多价值。
Giannotti 总结道:“在 IBM 基础架构的支持下,我们每天为客户生成数十亿字的语音文本。通过部署最新的 IBM Power Systems 服务器,我们将确保在语音转文本解决方案开发领域继续一路领先。接下来,我们将有机会与 IBM 合作,为市场带来更具特色的产品。”
© Copyright IBM Corporation 2019. IBM Corporation, IBM Cloud, New Orchard Road, Armonk, NY 10504
美国出品,2019 年 8 月。
IBM、IBM 徽标和 ibm.com 和 Power Systems 是 International Business Machines Corp. 在世界各地司法辖区的注册商标。其他产品和服务名称可能是 IBM 或其他公司的商标。www.ibm.com/cn-zh/legal/copytrade.shtml 的“Copyright and trademark information”部分包含最新的 IBM 商标列表。
Linux 是 Linus Torvalds 在美国和/或其他国家/地区的注册商标。
本文档为自最初公布日期起的最新版本,IBM 可能随时对其进行更改。IBM 并不一定在开展业务的所有国家或地区提供所有产品或服务。
文中引用的性能数据和客户示例仅作演示说明之用。实际性能结果可能因具体配置和操作条件而异。本文档中的信息均“按原样”提供,不涉及任何明示或暗示的保证,包括适销性、特定用途适用性的任何保证,以及不侵权的任何保证或条件。IBM 产品根据其提供时所依据的协议条款和条件获得保证。
客户负责确保遵守适用的法律和法规。IBM 不提供任何法律咨询,也不声明或保证其服务或产品经确保客户遵循任何法律或法规。