深度对话科大讯飞胡郁:搞定33种语言的翻译神器如何炼成?

智东西(公众号:zhidxcom)
文 | 寓扬

昨日,科大讯飞在京发布讯飞翻译机2.0产品。相比一代翻译机,它可以翻译的语种增加至33种,除了语音翻译、离线翻译外,还支持拍照翻译功能。值得一提的是,讯飞翻译机2.0还针对国内用户口语、方言问题进行优化,目前已支持 东北话、四川话、河南话、粤语4种方言翻译。其官方售价为2999元,与一代产品价格相同。

刚刚过去不久的博鳌亚洲论坛上,同样有科大讯飞翻译机的身影,讯飞翻译机已成为博鳌论坛官方指定产品,与会期间受到国际政要与企业高管的好评。

深度对话科大讯飞胡郁:搞定33种语言的翻译神器如何炼成?

其实科大讯飞在2016年就将机器翻译技术落地,推出晓译翻译机,引领了国内智能翻译机市场的发展。在过去一年讯飞翻译机销量达到20万台,覆盖137个国家,服务次数2000万,用户好评率达98%。

科大讯飞执行总裁、消费者BG总裁胡郁欣喜地谈到:“我们探索出一个新的品类,并且证明机器翻译可以做成一种硬件并取得不错的成绩,引领了这个行业的发展。”而近两年也确实是机器翻译快速落地的一年,搜狗、百度、网易等纷纷在讯飞之后推出翻译机产品。

深度对话科大讯飞胡郁:搞定33种语言的翻译神器如何炼成?

(科大讯飞执行总裁、消费者BG总裁胡郁)

会后,智东西同胡郁围绕讯飞翻译机产品思路、定价策略、翻译机市场状况、机器翻译行业现状等进行深度沟通,呈现了他在打磨翻译机过程中对手机与翻译机、机器翻译技术与落地产品之间的利弊平衡与思考。

一、方言翻译成亮点讯飞定义旗舰翻译四大标准

讯飞翻译机2.0是在“拷问”中诞生的。2016年科大讯飞推出第一代翻译机,20余万台的销量也沉淀了一大批用户,而大量的用户反馈与市场调研也不断迫使讯飞团队思考,翻译的语言多少才够用?说不好普通话怎么办?嘈杂噪音环境下能不能好好工作?出国遇到文字信息怎么办?翻译机达到什么水准才够实用?

深度对话科大讯飞胡郁:搞定33种语言的翻译神器如何炼成?

据讯飞翻译机产品负责人翟吉博介绍,翻译机86%的用户用于出境游,这给他们指明了方向,聚焦于用户需求的原点,针对产品翻译语种数量、多样化口音翻译、真实使用环境、口语外的其他翻译以及翻译准确度进行严格拷问,讯飞翻译机2.0于昨日正式发布,它针对以上问题一一给出了答案。

深度对话科大讯飞胡郁:搞定33种语言的翻译神器如何炼成?

结合国内出境游用户经常去的国家,讯飞翻译机也由一代支持6种语言,到二代翻译机支持全球33种语言与中文的互译,满足了绝大部分中国用户的出境游。

深度对话科大讯飞胡郁:搞定33种语言的翻译神器如何炼成?

而针对国内用户30%不会说普通话,63%普通话带有口音的现象,科大讯飞依托讯飞输入法长期积累的方言数据与能力,将带方言口音的普通话识别率整体达到95%,并支持粤语、四川话、东北话、河南话四种方言翻译。翟吉博介绍到,讯飞一代翻译机已经上线中英文离线翻译,下一步讯飞将扩大中日、中俄、中韩等语言间的离线翻译。

深度对话科大讯飞胡郁:搞定33种语言的翻译神器如何炼成?

讯飞翻译机2.0另一个亮点——拍照翻译。毕竟出境游客不只需要语言交流,还需要看懂外国文字,比如你在国外餐馆吃饭却看不懂菜单该怎么办?这时候拍照翻译就显得尤为重要。讯飞翻译机2.0 正面带有一个屏幕,背面还有一个摄像头,通过摄像头对需要了解的信息进行拍照,然后通过图片识别技术就可以将图片中的外文转换为中文。目前讯飞翻译机2.0已支持英、日、韩等11种语言的拍照识别。

此外,出境游很可能面临嘈杂的沟通环境,如何保证翻译机在这种环境下靠谱工作呢?在语音识别较高的准确率下,嘈杂环境最大的问题是如何有效的获取用户清晰的声音,讯飞翻译机2.0搭载了一个四麦的麦克风阵列来解决这个问题。在一段对比iPhone手机视频中,我们可以感受到,在同等音量下,讯飞翻译机获取的声音更加清晰,噪点较少。

深度对话科大讯飞胡郁:搞定33种语言的翻译神器如何炼成?

通过以上几点“问题、拆解、答案”的呈现,讯飞提出了A.I.旗舰翻译的四大标准:听得清、听得懂、译得准、发音美。我们清晰的感受到,科大讯飞不只是单纯为了落地技术而做翻译机,而是深刻围绕核心用户的使用场景和使用痛点在打磨产品。可见作为开拓者的科大讯飞,在翻译机上又向前迈进了一步。

二、有了手机,为何还要做翻译机?

有人可能会说在手机中装个翻译软件不就行了,为何还要做一款翻译机?科大讯飞执行总裁、消费者BG总裁胡郁意味深长地说:“做翻译机是科大讯飞深思熟虑的结果”。而这背后体现着讯飞对技术落地的探索、对产品的思考,以及对翻译事业的战略重视。

深度对话科大讯飞胡郁:搞定33种语言的翻译神器如何炼成?

科大讯飞是一家拥有19年历史的本土语音技术公司,技术布局涵盖语音识别、语义理解、语音合成、机器翻译等各个语音领域,其中机器翻译便是讯飞一项重要的技术。

早在2011年,科大讯飞率先在国内将神经网络技术应用到机器翻译,在国际与谷歌都是同一时期进军这一领域的。基于神经网络技术,讯飞分别于2011年~2013年推出新一代的语音识别、语音合成、机器翻译语言模型。依托这些技术,讯飞在系列国际语音类大赛中获奖,比如在2014年IWSLT国际口语机器翻译比赛中,讯飞获得冠军,在著名的Blizzard Challenge语音合成比赛,讯飞已经连续十二年夺冠。语音技术上的优势为讯飞落地行业与应用打下良好的根基。

深度对话科大讯飞胡郁:搞定33种语言的翻译神器如何炼成?

比如像讯飞翻译机中使用的机器翻译技术就涉及到语音识别、翻译器、语音合成等过程。以讯飞翻译机为例,首先基于讯飞四麦的麦克风阵列以及前端信号处理的算法,能够在更加自然的距离清晰获取用户的声音,然后通过语音识别技术将用户的语音转换成中文文字,接着通过翻译器实现中文与外文的翻译,接着再凭借语音合成将外文以语音的形式呈现给对方。这里面涉及到的每一个环节都需要相关技术的支撑,没有良好的技术支撑便不能保证良好的用户体验。近年来讯飞在语音技术上仍不断探索,提出语音到语音的机器翻译、全双工语音翻译等。

深度对话科大讯飞胡郁:搞定33种语言的翻译神器如何炼成?

在产品层面,胡郁从三个角度解答了为何有了手机之后我们还要做翻译机的问题。首先,手机的主要使用场景是近场使用,它没有考虑到在翻译过程中人可能离的比较远、环境噪声大等问题;其次,他认为智能硬件的精髓在于好用,在于方便快捷,打开即用,一步到位才能有更好的体验,而手机中使用APP的过程繁琐,操作不便;第三,翻译场景应该有更自然、更亲和力的交互,将手机直接放在别人嘴边也不符合我们的交往礼仪。

而在战略层面,翻译已经深入科大讯飞骨髓。作为语音技术的重要落地方向,翻译是讯飞的一项关键业务。讯飞也从2009年就参与了少数民族语言的翻译工作,正如胡郁所言:“翻译对于科大讯飞不仅仅是一项技术或产品,而是一项事业。”

深度对话科大讯飞胡郁:搞定33种语言的翻译神器如何炼成?

作为人类之间沟通最便捷的方式,语言之间的转换,直接影响到我们将来人类的整个交流,甚至影响到我们人类将来的命运。今年,科大讯飞董事长刘庆峰在今年两会上就提出了,人类语言大互通的计划。讯飞还与国际电信联盟、上海外国语大学、中国外文出版发行事业局、东北大学等合作,共同推动翻译事业的发展。

胡郁还提出,未来的翻译行业是人与机器的结合与互动。机器翻译不会取代人工,而是能够取代技能比较低的部分,从而让人从事更有创造性的工作。

三、2999元的定价是何考虑?

近两年翻译机不断的涌现市场,科大讯飞、百度、搜狗、网易等纷纷推出翻译机产品,似乎翻译机迎来了一个春天。尽管科大讯飞是翻译机市场的引领者,但当下也面临两类玩家的竞争,一类是同样推出翻译机产品的搜狗、网易等,一类是微软、百度、腾讯等推出的翻译APP。

深度对话科大讯飞胡郁:搞定33种语言的翻译神器如何炼成?

面对搜狗翻译机1498的价格,以及其他千元以内的翻译产品,科大讯飞为何要将价格继续定在2999元呢?胡郁解释到,翻译机产品本身还没有到成熟的阶段,作为一个新的垂直品类,最重要的还是产品的用户体验和功能性,一味的低价竞争并没有意义。言下之意,讯飞翻译机这款旗舰新品会更注重产品的打磨和用户体验,进而赢得用户。

而当谈到谷歌、微软、以及百度、腾讯、网易等做的手机翻译APP时,胡郁以微软翻译为例分析他们与讯飞的不同,尽管微软也做了翻译,但没有做硬件,但并没有从应用场景做分析。而讯飞更加聚焦,围绕中国用户的需求,深入研究出境游的场景化需求,将中文与其他语言之间的互译做透。

胡郁还谈及了讯飞翻译机与谷歌Pixel相机图片翻译的不同,谷歌手机无需拍照,就可以对图片信息做到识别,这里应用到的技术是AR(增强现实),但是谷歌更多从技术落地来考虑,这需要更强的处理器支持,并且也会增加手机的耗电量。而讯飞做翻译机更多是从产品层面来考量,采用的是先拍照后识别的技术,拍照已经能够满足用户的需要,减轻CPU、内存的负担,并增强翻译机的续航能力。

他近一步谈到,机器翻译技术已经到了可用的时间,并且在这个过程中讯飞率先推出产品,并向市场证明翻译机能够卖出量,无疑对行业起到引导作用。如果说技术的可用是一个先决条件,那么对未来智能硬件市场的看法则是另一个关键因素。他认为手机更像是一个通用模拟器,其霸主地位短时间并不会改变,但是未来智能硬件会多元化,在某些场景下智能硬件能够与场景和用户体验深度结合,也会有很强的需要。

当问及他对翻译机市场空间的看法时,胡郁称还有待进一步观察,他举例到2016年他们刚开始做翻译机的时候没有想到会有这么大的需求,但现在感受就不一样了,这是一个在不断探索中发现的过程。他笑称,预测未来最好的方式就是把它实现,不然等大家都搞清楚了在做,就没有机会了。并且未来翻译机是什么形态并不重要,因为翻译的需求是不变的,沟通的需求也是不变的。可以预见,讯飞会围绕翻译继续深入布局。

深度对话科大讯飞胡郁:搞定33种语言的翻译神器如何炼成?

而翻译机只是机器翻译落地在消费端产品的一个点,机器同传、会议系统等都是机器翻译应用的表现。比如在今年博鳌亚洲论坛上,腾讯机器同传在现场表现不佳,出现了较多的错误。这里面也有机器翻译行业共同的问题,如机器翻译缺少对上下文的理解、口音问题、专业性问题等等,机器翻译行业还存在许多挑战。

但胡郁并没有过多强调机器翻译行业在技术上的不足,而是认为行业的问题和挑战更多的在于落地的使用效果。大体来讲机器翻译能够解决90%~95%的问题,但是剩下的5%的问题可能是很致命的,往往要攻克这5%所花费的代价也要比攻克95%的问题大的多。

“但是我们要考虑的是什么样的情况能够达到用户的需求,不是解决所有的问题才能给用户去用,而是要在现有的技术效果下,怎么通过产品设计去规避现在技术上的不足,让用户体验感觉很好”,胡郁也表明了他对技术与产品之间权衡利弊的思考。

结语:让应用反哺技术

正如胡郁所言:“语音产业将成为人工智能产业落地和发展的重要入口,如何发挥应用创新优势、实现产业升级和品牌突围,是目前国内AI企业面临的重要课题。

科大讯飞本次发布的第二代翻译机产品,正是其围绕机器翻译技术与消费者使用场景,将技术落地翻译机的进一步探索。

而反过来,大量用户在翻译机使用过程中的“鲜活”数据,以及各种口音、方言数据,都是机器翻译技术不断迭代的力量源泉,最终推动机器翻译技术走向更高的维度。


每日一头条

趋势·深度·犀利·干货,最专业的行业解读

深喉爆料、投稿:guoren@zhidx.com

深度对话科大讯飞胡郁:搞定33种语言的翻译神器如何炼成?