对话搜狗陈伟:机器同传的关键是做好语音识别、机器翻译的中间环节

智东西(公众号:zhidxcom)
文 | 寓扬

近日,在IWSLT(International Workshop on Spoken Language Translation)国际口语机器翻译评测大赛上,搜狗击败其他对手获得Baseline Mode(基线模型)赛道冠军。

IWSLT是国际口语机器翻译评测中的最具影响力之一的大赛,从2004年开始至今已举办15届。本届比赛吸引了搜狗、科大讯飞、阿里巴巴、爱尔兰ADAPT中心、美国约翰霍普金斯大学、美国应用科技公司APPTEK、美国空军研究实验室AFRL等国内外知名大学、研究机构与公司参加。

对话搜狗陈伟:机器同传的关键是做好语音识别、机器翻译的中间环节

▲右为搜狗语音交互中心技术总监陈伟,左为机器翻译负责人王宇光

围绕搜狗在本届口语机器翻译测评大赛中的表现以及其背后的技术探索,今天智东西等少数几家媒体与搜狗语音交互中心技术总监陈伟、机器翻译负责人王宇光等人进行沟通,看看搜狗近两年机器翻译道路上又有哪些新的探索。

一、赛道选择出于实战考量

本次的国际口语机器翻译测评大赛主要考验的是AI从英语到德语的语音翻译,主要分为两个赛道,一个是Baseline(基线)模型,另一个是端到端模型赛道。搜狗本次参加的是Baseline赛道,并获得该赛道的第一名。

而在本届的端到端模型赛道上,科大讯飞则获得了第一名。搜狗为何在本次比赛中选择了Baseline的模型赛道而非端到端赛道呢?

搜狗语音交互中心技术总监陈伟介绍道,Baseline模型是目前做口语机器翻译比较成熟的方案,由机器像流水线一样逐一进行语音识别、机器翻译、语音合成等的方案;而口语机器翻译的端到端意味着直接输入英语输出德语口语,目前还处于学术界的一种探索,尚在应用的早期。

他们在本次比赛中选择了Baseline的模型赛道,主要原因是出于实用性考量。2016年11月的世界互联网大会上,搜狗便推出机器同声传译技术,经过过去2年的产品实战,搜狗想要借助这场比赛检验自身在语音翻译上的实力。

陈伟称,翻译是搜狗几个比较大的战略方向之一,他们希望通过产品实战把技术打磨好,并在真实的场景中检测一下自身实力。本次比赛其大约投入十多人的团队,主要来自内部语音识别、机器翻译、NLP(自然语言处理)、数据资源等多个团队。

此外,搜狗在机器翻译的端到端应用上也有一些前沿性探索,但该技术短期内并不能落地。

在他看来,小领域可控制的端到端模型更有价值,比如语音识别或者机器翻译这样一个环节的端到端在实际应用中更加可靠,而端到端的口语机器翻译至少还有5年以上的路要走。

二、要把语音识别、机器翻译的中间环节做好

陈伟也借着这场口语机器翻译比赛谈了他们对于机器翻译同传的一些新思考,他称早期认为机器同声传译就是语音识别+机器翻译,近两年在单点模型迭代的同时,他们在实际落地钟发现,要把语音识别与机器翻译的中间衔接环节做好,才能够真正实现领先。

他说,“想要做好机器同声传译,不仅仅是要把语音识别、机器翻译做好,还要把中间环节做好,这来自搜狗同传产品、实践中的积累。”

在Baseline这种流水线式的模型中,分为单点模型的迭代与不同环节之间的衔接。在单点模型上,搜狗通过多模型融合的方式来做语音识别与机器翻译,保证不同维度的特征,从而迭代效果。

科大讯飞无疑是语音赛道一位资深的老牌玩家,当谈及来自科大讯飞的竞争时,陈伟称,科大讯飞是一家很值得尊敬的公司,它们在技术细节上做的很扎实。

但他认为搜狗在语音识别技术上并不输于科大讯飞。随着2010年后深度神经网络在语音识别与机器翻译上的应用,对于新技术,大家都处于同一起跑线,这也是行业后入局者的机会。同时,搜狗依托搜狗输入法等产品,在数据上同样具有优势。

科大讯飞的会议同传产品讯飞听见最近闹出一场风波,它主要采用语音识别将语音转换成中文文本,然后由人工结合文本翻译成英文。针对这一“人机耦合”概念,陈伟称这是一种AI应用的方式,但一个成熟的人工同传是不需要看屏幕(看文字)的,人机结合应该以提升效率、降低成本为前提。此外,他们团队希望在未来3~5年内,搜狗同传能够达到人类的一般同传水平。

同时,他也谈道,目前同声传译领域还存在很多问题有待解决:其一是机器同传具有很强的领域属性,而在领域之外或者大量专业领域则效果一般;其二口音问题、重复词等也是翻译中的一个难点,其三算法中还存在一些亟待解决的问题,比如中译英中很大的问题是中英混杂,这都值得长期投入和推敲。

三、探索多模态、语音合成技术

2018年是人工智能深入落地场景的一年,搜狗也将AI技术落地到输入法、出行/旅行、大会同传等领域。在B端上,搜狗也开始将自身的AI能力对外输出,比如其AI能力已经上线到OPPO、vivo的手机中。

而在AI技术探索上,陈伟介绍了搜狗在多模态、语音合成等方面的进展。

2016年搜狗对外发布搜狗知音引擎,但最初它是一个以语音为主的单模态引擎,但语音在表达上是较为单薄的,近期搜狗将语音、唇语、图片等都加入知音引擎中,从而具备多模态表达的能力。

在语音合成方面,他展示了一个变声应用,你随便说一句话后,就可以模仿其他人的声音说出,比如经常被拿来调侃的特朗普。

陈伟还展示了一个搜狗制音坊的微信小程序应用,主要围绕儿童故事场景,爸爸妈妈们需要5分钟左右录制10句话,软件即可为孩子讲述带有父母声音的故事。

近年来语音合成技术也逐渐收到关注,并呈现出个性化、情感化发展的趋势。陈伟也表示,语音合成的关键是如何快速定制个性化声音,而目前最大的问题是数据问题。

语音合成希望机器的声音与人的声音很像,这意味着声音的音色、韵律等信息都需要还原,机器对数据的适配能力还需要加强。

此外,在今年的乌镇世界互联网大会上,搜狗还将与新华社合作展示搜狗分身技术。