NVIDIA秀语音助手速成妙招：开发速度提升10倍，延时不到300毫秒

智东西（公众号：zhidxcom）
作者 | 心缘
编辑 | 漠影

智东西2月27日报道，凭借听、读、译三大功能，对话式人工智能（AI）正逐渐深入人们的生活，成为解放双手和提高生产力的关键工具。

当你说话时，对话式AI能实时将你说的话记录成文字，甚至可以实时翻译成其他语言。

当你听不懂、记不住医生叮嘱的药物或治疗方案时，接受过海量医学文本训练的对话式AI，能帮你准确地记下全部医嘱。

当你因为开车等原因不方便看手机时，对话式AI能将屏幕上的文字读给你听。

它既能做稳定的速记员，也能胜任专业的翻译官，越来越多企业采用对话式AI来改善工作效率与优化客户支持。

不过，要开发出一款优质的对话式AI，并不是一件容易的事。如果只追求最快的响应速度，难免牺牲语音识别、语言理解、语音生成的质量，而如果过于重视质量，可能会响应的不够及时。

怎样能快速开发出高质量的对话式AI，满足专业的转录和编译需求？知名硅谷芯片巨头NVIDIA刚刚推出了一个相当有用的工具。

一、降低实时对话式AI开发门槛的神器

2020年初突然爆发的新冠肺炎疫情正刺激企业AI的应用，从远程教育、远程办公、客户服务到医疗健康，众多行业加速出现对AI的需求。

知名市场调研机构IDC的数据显示，2019年中国对话式AI的支出约为58亿美元，这一数字有望到2023年攀升至138亿美元。其中，中国对话式AI市场规模有望从2019年的5.761亿美元增至2023年的18.593亿美元，年均复合增长率（CAGR）为34.0%。

NVIDIA秀语音助手速成妙招：开发速度提升10倍，延时不到300毫秒 ▲2019-2023年中国对话式AI市场预测（来源：IDC）

什么是对话式AI？简单理解，就是一种能自动理解人类语言的系统，使得人与机器的交流像人与人之间的交流那样轻松、自然而高效。

想想我们的日常沟通过程，我们不会向对方发出固定的指令，而是用自然的语言进行交流。

而要让机器更加自然、拟人化的与人类互动，需要先让机器理解你所说的话，即时了解上下文和语言，判断话的意图和隐藏含义，并以最自然的对话方式做出回应。

▲基于NVIDIA Jarvis实现的语音助手示例

在疫情刺激下，英国高性能语音识别服务供应商Intelligent Voice发展势头相当迅猛，几个月内即推出了新产品Myna，能连接到虚拟会议工具，自动记录、将录音转换成文本并发送文本记录。

Myna得以快速实现的秘密武器，即是NVIDIA去年5月首次公布的实时对话式AI模型工具Jarvis。

Jarvis是一个基于NVIDIA GPU提供实时性能的灵活、多模态对话式AI服务应用框架。

“Jarvis采用多模态的方法，将自动语音识别的关键元素与实体和意图匹配相融合，满足需要高吞吐量和低延迟的新用例的需求。Jarvis API不但易于使用，还能整合和自定义客户的工作流程，实现性能优化。”Intelligent Voice首席技术官Nigel Cannings说。

另一家创建阿拉伯语虚拟助手的公司InstaDeep同样是Jarvis的早期采用者。通过Jarvis中的NeMo工具包，这家公司对阿拉伯语语音–文本模型进行微调，将单词错误率降低至7.84%。

通过早期采用者的反馈与优化，Jarvis逐渐实现了更高的吞吐量和更低的延迟。在打磨成熟后，NVIDIA于昨日正式推出GPU加速的Jarvis 1. 0公测版。

二、延时小于300毫秒，开发速度提升高达10倍

Jarvis 1. 0公测版中包含用于构建和部署实时对话式AI应用程序的端到端工作流程，使开发者能轻松实现实时语音识别、转录、翻译、封闭式字幕、虚拟助手和聊天机器人等功能。

它对于改善企业服务非常友好。如果从头开始构建对话式AI服务，必然需要深厚的AI专业知识、海量数据和充足的计算资源，而由NVIDIA GPU加速的Jarvis框架使开发者无需为这些成本而烦忧。

Jarvis的一大能力是定制解决方案。基于NVIDIA Jarvis，企业开发者能很容易地用专有的视频和语音数据，对最新模型进行微调，从而更深入地理解特定上下文，并对推理进行优化，从而构建针对其自身行业、产品和客户特征而量身定制的高质量、端到端实时对话式AI服务。

这些服务运行时间不到300毫秒，在GPU上的吞吐量比CPU高7倍。

NVIDIA秀语音助手速成妙招：开发速度提升10倍，延时不到300毫秒

▲对话式AI工作流程

如图是对话式AI的工作流程。首先是自动语音识别（ASR），整个系统需要先输入音频、提取特征，用声学模型尝试找出特定声音生成相应的等效词，从而识别语音音频并生成对应文本；然后借助Jarvis，可以实现机器翻译、搜索、意图识别、语言分析、问答系统等自然语言理解（NLU）服务；最后从这些服务获得文本作为输出，通过语音合成（TTS）技术和语音编码模块生成像人类声音的对应语音。

此次发布的Jarvis提供有多个新型对话式AI预训练模型，包括基于数千小时语音数据训练的ASR、NLU和TTS模型，提供使用一行代码部署服务的端到端工作流程和工具，并支持迁移学习工具包（TLT），方便企业根据自己的具体用例和领域调整应用。

其迁移学习工具包是一个拖放界面，不需要任何先验编码经验，即可采用自定义数据通过零编码的方法，快速重新训练模型。

开发者可以再训练TLT，也可以探索用于构建和训练GPU加速的对话式AI模型的Python工具包NeMo，然后用Jarvis集成使用最先进的AI语言模型进行语音识别、语音合成、语义理解的虚拟助手，未来Jarvis还将支持计算机视觉服务。

NVIDIA秀语音助手速成妙招：开发速度提升10倍，延时不到300毫秒 ▲NVIDIA Jarvis公测版

通过Jarvis，企业可以获得各种先进的模型、通过TLT迁移学习将开发速度提升高达10倍，以及全面优化的GPU加速流程，从而创建能理解每家公司独特专业术语的实时智能语言型应用。

其全面加速的深度学习流程经过优化，可作为可扩展服务运行。

即日起，NVIDIA Jarvis和TLT可供NVIDIA开发者计划成员免费下载。

三、对话式AI正改变各行业服务体验

NVIDIA Jarvis服务现有的三大功能分别是语音识别、语音合成、自然语言理解。

其语音识别服务有不同的模式选择，可以使用不同采样率，可用于语音识别的英语语音数据已经被训练了7000个小时，并提供有Jasper、Quartznet等不同声学模型，全流程端到端优化。

其语音合成有流模式和批处理模式，支持22kHz采样率，提供acoTron2、Waveglow等模型和完全端到端优化的流程。

如果要识别特定领域的实体，Jarvis的自然语言理解模型即可提供帮助，该服务提供高级NLP API和低级API，能满足命名实体识别、领域分类、分别标签等需要。

例如，在医疗健康领域，眼科医生进行远程诊疗时，自然语言理解服务能识别医学文本的实体，在对话过程中能检测出哪些医疗实体，辅助终端系统为患者进行诊断。

▲基于Jarvis的远程眼科诊疗示例

除了医疗健康外，NVIDIA Jarvis也正为政务、金融、消费者服务等更多行业带来新的机遇。

企业和政府机构每天都要记录数以千万计的通话，但通过搜索提取这些通话中的关键信息几乎难以实现。而通过Jarvis把录音转换成文本，就可以利用AI工具快速搜索并分析这些数据。

在金融领域，以用AI颠覆金融分析行业而闻名的英国公司Kensho用NVIDIA对话式AI开发了金融和商业语音识别解决方案Scribe，该方案据称在财报电话和财务音频方面的准确率比同类其他商业解决方案高出约20%。

得益于在推荐引擎Merlin、对话式AI Jarvis等关键框架的押注，NVIDIA正不断强化其数据中心业务的软件优势。

本周NVIDIA刚刚公布的最新财报显示，其数据中心业务在截至2021年1月31日的第四季度创下19亿美元收入新纪录，同比增长97%，全年收入创下67.0亿美元的纪录，同比增长124%。

结语：加速对话式AI落地普及

通过虚拟助手、实时转录、聊天机器人等形态，对话式AI正带给企业客户更多沉浸式的体验。

随着越来越多企业及消费者拥抱数字化，更多中小型机构也开始在其联络中心部署更具个性化的对话式AI功能，而开发部署的成本与复杂性，往往是制约这一趋势的核心难题之一。

而NVIDIA Jarvis 1. 0公测版的推出，降低了实时对话式AI开发的准入门槛，有望推动未来对话式AI在更多行业的普及落地。

一、降低实时对话式AI开发门槛的神器

二、延时小于300毫秒，开发速度提升高达10倍

三、对话式AI正改变各行业服务体验

结语：加速对话式AI落地普及

相关推荐