AI战略再次实力提速,搜狗获得Blizzard Challenge 2018语音合成大赛冠军

白水人工智能2018/07/13

近日,在刚刚落幕的“Blizzard Challenge 2018 ”语音合成大赛上,来自中国的新锐队伍搜狗公 […]

近日,在刚刚落幕的“Blizzard Challenge 2018 ”语音合成大赛上,来自中国的新锐队伍搜狗公司首次参赛,就一举战胜诸多国际顶尖科研机构,获得了可懂度和语音停顿两项任务中排名第一的优异成绩。这充分体现了搜狗在语音技术领域的领先地位,彰显了搜狗在人工智能行业的积累成就。

语音合成技术,挑战人工智能的表达能力

Blizzard Challenge (以下简称BC),是语音合成领域最具权威性、广泛性的国际评测比赛。该赛事由美国卡耐基-梅隆大学(Carnegie Mellon University)、日本名古屋工业大学等联合发起的公开的语音合成技术的评测平台,加强世界各地语音合成研究机构之间的交流与沟通,促进语音合成技术的深入发展。

Blizzard Challenge始于2005年,作为国际上规模最大、影响力最大的语音合成大赛(英语为主),每年都吸引众多国际一流的科研单位和一流企业参赛,包括CMU(美国卡耐基-梅隆大学)、Cambridge University(英国剑桥大学)University of Edinburge(英国爱丁堡大学)Nitech (日本名古屋工业大学)、科大讯飞、中科院自动化所等国内外语音合成领域的顶尖高手。

语音合成又称文语转换技术(简称TTS),能将任意文字转化为清晰自然、富有表现力的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,受到了国内外各大科技公司的争相研究,被广泛应用在智能客服、新闻播报、语音导航等众多场景之中。

技术为先,搜狗领跑AI前沿赛道

某种意义上来看,谁在语音合成技术上占据优势,谁就很可能抢先完成AI应用的突破。

由于今年BC 2018的数据与2017年完全相同(2016年仅提供了部分),许多企业和研究机构连续多年参赛,有丰富的数据积累和实战经验。而搜狗作为新锐队伍首次参加比赛,在时间紧、对手强的困难条件下,凭借扎实过硬的技术积累,最终在可懂度和语音停顿两项任务中排名第一,而搜狗之所以能取胜,离不开在合成技术的持续投入和积累。

1. Sogou speech synthesis system

我们知道,AI离不开数据的训练。搜狗充分利用大数据语音资源进行模型训练,保证输出声学特征的稳定性。由于本次比赛所用的音库规模小、表现力强,搜狗还对合成系统(见图1)的各个模块,包括特征选择、前端文本分析、时长模型及声学模型,都进行了针对性优化,进一步提升合成语音的整体效果。同时,使用先进的WaveNet(见下图)波形建模技术替换传统的声码器,使合成语音音质更加接近原始录音。

The WaveNet model architecture Sogou used

任何技术的推动,都少不了生活场景中的呈现,语音合成技术之所以意义重大,正是由于它有着非常广泛的垂直场景应用,属于AI行业的前沿阵地。早在2012年,搜狗就开始语音合成技术的研究,经过多年的技术沉淀和数据积累,目前已具备多语种多音色的语音合成能力,并在业内首推个性化语音合成和情感迁移的技术,用户上传少量音频,即可合成高质量的个性化音色,并且能快速迁移成多种讲话风格(相声贯口、唱歌、绕口令等),合成效果达到国际领先水平。搜狗语音合成广泛应用于搜狗汪仔、糖猫、搜狗翻译机、搜狗百科、立知等众多软硬件产品,与海尔、蔚来汽车、央视财经等公司也有深度合作,真正实现了让机器像人类一样去表达信息。

毫无疑问,在语音合成领域搜狗已占据了技术优势,并抢先完成了市场应用的产品布局。

未来,搜狗的AI之路将通向何方?

搜狗CEO王小川就曾说过:搜狗构造自己的AI 能力,就是以语言为核心,上层是感知系统——包括语音与图像,下层包括对话、翻译、问答,这是搜狗整体理解AI的切入点。

王小川的这段话,正是搜狗AI战略的最好诠释。

此前,搜狗就取得了WMT2017国际机器翻译大赛的第一名,从爱丁堡大学、加拿大的NRC、俄勒冈州立大学、罗彻斯特大学、乌普萨拉大学、美国空军研究实验室等20多家国际知名的机构中脱颖而出。而在上个月,搜狗的视觉研究团队获得CVPR WAD2018 挑战赛冠军,代表中国向全世界展现了目标检测技术的成就,掌握了人工智能的眼睛,决定了机器的行动力与判断力。

这一次,搜狗在Blizzard Challenge 2018上获得语音合成大赛冠军,无疑是更进一步彰显了自身的技术优势。

占据了行业领先地位的搜狗,坚定的在AI领域开拓着自己的道路,今年更是在智能硬件领域大展身手。20183月,搜狗推出了搜狗旅行翻译宝,具备离线翻译功能与拍照翻译功能,让马化腾都忍不住心动的买了一台。作为首款智能翻译硬件,它支持42种语言对话翻译,解决了旅游场景中用户听不懂、看不懂、不会说等真实痛点。该项产品在京东平台首发当日即告售罄,首日销售额破千万。与此同时,搜狗还推出了录音翻译笔,提供录音转写、对话翻译、同声传译等功能,把AI同传落地到了消费级产品之中,开启了人人都能拥有同传的新时代。

在这条人工智能的道路上,以搜狗为代表的国产科技巨头公司,已占据了技术方面的领跑优势。我们期待,未来还能感受到更多的AI惊喜。