从智能语音到机器翻译！解读搜狗的人工智能进击之路

智东西（公众号：zhidxcom）
文 | 寓扬

8月初，搜狗CEO王小川的一封内部邮件讲到，搜狗即将赴美IPO，也将搜狗带到了互联网圈议论的焦点。

而近期搜狗语音交互中心机器翻译团队也取得了优异的成绩，在国际顶级机器翻译比赛WMT(Workshop on Machine Translation) 2017种获得人工评测的中英和英中机器翻译比赛双向冠军。

（WMT机器翻译比赛得分表，第一个即为搜狗团队的机器翻译系统）

WMT是机器翻译领域的国际顶级评测比赛之一，从2006年开始到现在一共举办了12届机器翻译比赛。它由国际机器翻译研讨会面向新闻领域，提供统一数据集，采取机器测评和人工评分两种测评方式，并将结果以竞赛的形式呈现。作为今年新闻机器翻译任务的7个语言之一，中译英、英译中是今年新增的两个方向，训练数据为800万~900万。共有20支团队提交了中译英翻译系统、15支团队提交了英译中翻译系统，参赛团队包括美国约翰霍普金斯大学、美国空军研究实验室、加拿大国家研究院、（英）爱丁堡大学、中国中科院计算所、厦门大学等。

搜狗机器翻译团队的获奖代表搜狗在人工智能方面的最新进展，而王小川此前也曾提到今年是搜狗人工智能技术从前沿科技到走向实用的重要一年。那么搜狗前沿技术应用到了哪些领域？在语音交互大入口下又有哪些布局？

（图为搜狗语音交互中心技术总监陈伟）

智东西同搜狗语音交互中心技术总监陈伟以及机器翻译技术负责人王宇光展开对话，看看这家靠输入法而知名的公司在人工智能中有哪些新进展。

组建机器翻译团队实现跨语言交流

搜狗的核心主要包括两个事业部，一个是桌面事业部，一个是搜索事业部。陈伟和王宇光所在的语音交互中心则在桌面事业部下面，而搜狗语音交互中心也是搜狗人工智能技术的代表。

恰逢搜狗在2012年成立语音识别团队，陈伟便加入了搜狗，而其在博士期间主攻的就是语音识别。目前围绕语音和输入法的结合，搜狗输入法一天的语音识别请求已高达3亿次，是国内最大的语音单品APP，也显示了搜狗在语音识别方面的进展。

除了语音识别之外，围绕搜狗的人工智能战略，语音交互中心开始做自然交互。语音技术部围绕自然交互，逐渐转移到多模态输入上（人机交互中让机器理解人的信息，包括语音、文本、图像等方式）。除了语音识别外，语音技术部还做了语音合成、声纹识别、语音分析（语种）等技术研究，随着从近场的手机向远场的电视、音箱发展，该部门也具有了自己的麦克风阵列的硬件能力，形成了较为闭环的语音能力。

在这个基础上，作为一款人与人交流、表达信息的输入法产品，搜狗希望用户能够帮用户实现跨语言交流，因此就做了机器翻译，以及基于语音识别和机器翻译做了搜狗机器的同声传译。

此外，围绕自然交互，语音技术部也在做手写和图像方面的研究，语音+图像+文本的能力都已具备，在加上语义理解团队，就是一个完整的知音引擎。未来，搜狗知音也将会成为一个开放平台，输出一整套软硬件相结合的语音交互方案，并将逐渐把搜狗知音OS的能力标准化，输出到最适合的场景。

依托数据优势构建机器翻译技术壁垒

而本次WMT比赛中获奖的机器翻译团队也在语音技术部下。随着2014年机器翻译从SMT（统计机器翻译）往NMT（神经网络机器翻译）迁移，搜狗语音技术部门便做基于神经网络技术的机器翻译，并在2016年成立机器翻译团队。

机器翻译团队从一开始就发力神经机器翻译技术，用了不到半年的时间把技术打磨好，使用在搜狗输入法上，输入法中的语音翻译和文本翻译上线以来日均请求量已达200万次。之后在去年11月份世界互联网大会上，语音技术部便将已有的语音技术和机器翻译技术相结合，推出了机器同传技术，目前已经在多场重要会议场中使用。

以中英文的机器同传为例，它大致需要将搜集来的中文语音信息经过语音断句，获得小的语音片段，然后会送到语音识别中获得文本，此时需要对文本进行一些顺滑处理，将这个经过语音识别后的处理文本送到端到端的神经网络（目前机器翻译的主流方法），通过翻译器进行语音翻译。

在机器翻译中，各家公司使用的算法类型基本是一样的，但是同样的数据效果却相差很多。对于搜狗来讲，重要的问题有两个，一个是怎么用好数据（比如单语数据），另一个是找到最合适的数据（甄选数据）。此外，搜狗机器翻译团队也在针对翻译里面的实体进行优化，包括多翻漏翻、数字等细节问题。

那么刚刚成立1年多的机器翻译团队，相比其他机器翻译团队、或者科大讯飞，搜狗的优势何在？智东西了解到，一方面是人才，搜狗主做机器翻译的员工经验大都在5年以上；第二，语音识别中有许多经验可以借鉴，依托于之前语音团队的技术优势，对机器翻译帮助也很大；第三，搜狗在输入法的场景下面积累大量的用户数据，可以快速把数据壁垒做起来，而算法是很难形成壁垒的。

2012年之后，原有统计机器翻译上的技术框架逐渐被推倒，需要从新布局新的技术框架。再加上搜狗有国内最大的输入法，在这方面积累的语音数据量比科大讯飞还要多。难怪陈伟称搜狗在机器翻译方面与科大讯飞是持平的或是有优势的。

就机器同传而言，目前搜狗的语音识别率已达97%，而机器翻译的准确率则要略低一些，这也是业界的难题。机器翻译最难的部分在于盲传，翻译本身是严重依赖上下文的，而机器翻译却没有任何背景知识。此外机器同传也要尽可能的做到低延迟，搜狗在这方面已经把延迟控制在2、3秒以内。

而搜狗机器同传接下来的发展，一方面需要保证稳定的语音识别率，比如噪音场景下；另一方面是机器翻译如何能更好的找到一个完整的语译边界。同传系统最核心的就是建立一个连接语音识别和机器翻译文本的处理系统，这个处理系统可以接收语音识别的结果，去做容错。此外，就是如何处理更多口语化的表达，如“这个”、“那个”，以及如何断句问题，确保翻译出来的是一个完成的语义句子。当这些问题都解决的时候，机器同传的效果才会提升很多。

结语：搜狗语音交互入口下的布局

机器翻译是搜狗重点布局的一个方向，也是一个差异化的优势所在。但搜狗的人工智能并未止步于此，围绕着语音交互入口，搜狗在更多领域，甚至在智能硬件方面都会有进一步的进展。目前搜狗技术落地的产品主要包括搜狗输入法、搜狗同传、搜狗听写等产品。

在2014年前后，搜狗也做过手机中的语音助手APP，但后来项目被停滞。搜狗也从中获取经验，“一个产品做的好不好，要看你的产品边界定的清不清楚，技术能力能不能达到产品需求”。在这种情况下，搜狗将深耕车载和家居两个方向的语音交互。

目前搜狗在和四维图新做车载设备中的人机交互，跟小米电视、创维电视等合作打磨语音交互技术，预计未来将会有更多打造搜狗语音技术的智能硬件产品发布。

组建机器翻译团队实现跨语言交流

依托数据优势构建机器翻译技术壁垒

结语：搜狗语音交互入口下的布局

相关推荐