携新华社发布AI虚拟主播 搜狗要靠这个技术“克隆”人类

智东西(公众号:zhidxcom)
文 | 寓扬

在去年的乌镇世界互联网大会上,搜狗推出了一项黑科技“唇语识别”,AI不需要听声音,仅靠观察你的唇部动作,就可以理解你说话的内容。读心术固然厉害,读唇术也是相当吸引眼球。

而在今年乌镇世界互联网大会上,搜狗又与新华社一起推出全球首个“AI合成主播”,这个虚拟主播不但能够模仿你的声音,还能够模仿你的表情,成为大会的一大亮点。

从去年的唇语识别到今年的AI合成主播,一方面可以看到搜狗在前沿技术上的积淀与探索,另一方面也可以看到搜狗也在尝试加速AI技术的商业化。智东西近日与搜狗语音交互技术中心总经理王砚峰、语音交互中心高级总监陈伟进行深入沟通,解读搜狗AI合成主播背后的黑科技“搜狗分身”,未来搜狗还要为用户提供个性化的虚拟形象。

一、AI合成主播就将正式上岗新华社

11月7日,在第五届世界互联网大会开幕当天,搜狗和新华社携手在乌镇发布全球首个“AI合成主播”。它以新华社主持人邱浩为原型,由搜狗与新华社新媒体中心共同打造。

AI合成主播能够实现高效的新闻播报。用户只需要输入新闻文本,它就能够用和真人一样的声音进行播报,并且连唇形、面部表情也与真实主持人相吻合。

AI合成主播不仅仅是新华社将AI技术引入新闻报道中的一次尝试,也是“搜狗分身”技术在新闻行业的一次实践。

携新华社发布AI虚拟主播 搜狗要靠这个技术“克隆”人类

搜狗CEO王小川表示,搜狗分身技术利用搜狗的AI能力,从图像表情、声音语言习惯、逻辑思维等层面对AI进行拟人化训练,然后“克隆”出人类的AI分身,进而帮助人类提高信息表达和传递的效率。

通俗来讲,由真人主播面对镜头录制一段播报新闻的视频,搜狗分身凭借这段视频就可以将真人主播的声音、唇动、表情动作等特征进行提取,然后通过语音合成、唇形合成、表情合成以及深度学习等技术,“克隆”出与真人主播十分相似的具备新闻播报能力的AI虚拟主播。

通过一段AI合成主播的视频可以看出,这项技术能够让AI较为逼真的模拟人类说话时的声音、嘴唇动作和表情,并且将三者做到近乎自然的匹配。在新闻播报这样相对严肃的场景下,合成主播的表现已经较为接近人类主播的音容相貌。

搜狗公司语音交互技术中心总经理王砚峰告诉智东西,这次与新华社合作的AI合成主播不是一次公关传播,而是搜狗AI技术的又一落地。从当天开始,新华社AI合成主播就将正式上岗,成为新华社报道队伍中新的一员。

举例来说,哪怕主持人邱浩每天工作12小时,一周工作七天,那他每周也只能工作84小时。而只有有足够多的服务器,AI合成主播呈现无数个分身,不间断的工作,这无疑大大节省了节省了人力成本。

并且相对于传统视频新闻需要漫长录制过程而言,只需要将文本输入,合成主播就能够在非常短的时间内生成新闻播报视频,这在大幅压缩新闻播报视频的后期制作成本的同时,也大大提升了传媒业的效率。

二、搜狗分身背后是多模态合成技术的探索

与其说“搜狗分身”是一项技术,不如说它是一个框架,一款产品。它所要做的是“克隆”(合成)人类的声音、嘴唇动作、脸部表情,甚至未来也有可能加入人体、手势等。它是搜狗在多模态合成技术上的一次尝试和探索。

所谓多模态即多种感官的融合,比如搜狗分身技术此次就融合了语音合成、唇语合成以及表情合成等,将几个维度不同特征的感官进行融合,就是多模态合成技术。

其中,语音合成与唇语识别是搜狗之前就积累的技术,而本次搜狗分身中应用到的唇语合成、音视频联合训练、音视频表情生成等都是新的探索。

搜狗语音交互技术中心总经理王砚峰介绍道,基于之前在语音、图像上的基础技术积累,搜狗今年上半年开始尝试多模态合成技术,新华社AI合成主播的推出算是前一阶段成果的展示。目前搜狗分身在一般场景或者相对严肃认真场景下,已经取得了惟妙惟肖的效果。但是在一些情感表达非常丰富的场景(比如表情非常夸张),搜狗分身的效果还有待进一步提升。

在具体的实现路径上, 当你输入一段文本后,机器会首先对文本进行韵律预测、情感预测等,比如哪些可能是重音;然后将对应的语音合成和唇语合成按照这个预测来生成,并结合文本与唇形匹配相应的脸部表情;最后在一个时间轴上,将语音、唇动、表情协调一致的进行呈现,使AI能够相对流畅自然的进行表达。

这里面有三个关键环节,其一是语音合成,这一块是听觉的;其二是唇语合成与表情生成,这一块是视觉的;其三是多模态融合进行协调一致的呈现,即如何让AI主播的声音、唇动、表情相匹配。

王砚峰表示,搜狗分身技术中有2个关键难点,一个是唇语合成,一个是声音、唇动、表情的协调匹配。

唇语合成在技术原理上与语音合成较为相似,但唇语合成要比语音合成难很多,因为语音合成是一维线性问题,而唇形合成则是三维的。作为一个虚拟形象主播,它的唇形要跟文本内容、语音、发音方式等都要协调一致。

另外一个难点在于视频生成。即使语音合成能够做到惟妙惟肖,唇语合成也能够做到相当逼真,但是如何将声音、唇动、表情在一条时间轴上匹配起来就比较困难。因为这已经是一个视频生成的问题,需要保证三者的协调一致、连贯自然,这也是搜狗分身的一大亮点。

通过搜狗分身技术,用户也可以打造个性化的虚拟形象。王砚峰称,目前通过搜狗分身技术,大约需要一个小时的用户音视频数据,就可以做出一个效果较好的AI合成主播。

这一生成时间仍相对较长,因为目前多模态合成仍在早期阶段。随着多模态合成数据积累的足够多,我们就可以将其共性抽出形成基线数据,在生成个性化形象时,可能只需要几分钟把个性化数据建立起来,就可以生成一个效果良好的虚拟形象。

搜狗语音交互中心高级总监陈伟也向智东西透露,下一阶段,搜狗希望将搜狗分身的制作成本降下来,比如能否通过上传一小段视频或者照片就可以进行虚拟形象的生成,下一代的搜狗分身技术他们也在研发中。

三、搜狗分身的商业化才刚刚开始

从去年的将语音识别和唇语识别结合在一起做识别技术,到今年的将语音合成唇语合成等结合起来做合成技术,搜狗在多模态交互上的步伐又深入一步。

搜狗之所以在多模态交互上有这么多尝试,这跟它的AI理念——“自然交互+知识计算”有很大关系。王砚峰称,目前的人机交互界面还是冷冰冰的,比如智能音箱,即使加入一些卖萌的元素,但交互感还是较差。而搜狗让机器以更逼真自然的形象呈现在用户面前。

他还表示,在人机交互上,目前业内主要做的是语音交互,但搜狗认为未来的交互一定是多模态的交互,正是基于这一考虑,搜狗围绕交互在语音、视觉技术上均有积淀,并积极探索多模态的应用。

无论是多模态交互还是语音合成,都是近两年业界关注的一个重点。但受限于应用场景,行业在多模态交互上的探索主要集中在机器的输入端,比如智能音箱场景。在多模态合成上,行业更是处于发展初期。

搜狗语音交互中心高级总监陈伟也谈道,无论是做语音合成,还是做视频生成预测,目前许多AI公司也都在做,但以单模态居多。搜狗将语音合成唇语合成等结合起来做合成技术,包括之前将语音识别和唇语识别结合在一起做识别技术,就是希望打通多模态之间的连接,做到不同模态的融合。

搜狗分身正是搜狗在多模态合成技术上的一次探索,它是人工智能在模仿人类领域的一次新进展。

一方面务实基础技术研发的同时,搜狗的AI商业化落地也在同步推进。王砚峰介绍道,新华社的AI合成主播是搜狗分身技术的第一个落地场景,它除了在新闻播报领域的应用外,还有更广泛的应用空间可以探索。

比如在线教育场景,可以用搜狗分身做音视频的合成,提升教育行业的效率,同时增强与用户的互动性。

再比如虚拟助理,相比目前的语音助手,带有形象的虚拟助理更贴近人类,在交互中也更加贴近人类的期待,这在未来也会是一个巨大的场景。

“搜狗分身”技术将在娱乐、医疗、健康、教育、法律等多个领域提供个性化的内容,从而提升各个行业的效率和服务体验。

除了搜狗分身外,近期搜狗也在围绕语言与交互抢占行业赛道。比如在C端场景,将AI引入搜狗输入法,在语音合成上推出搜狗制音坊;在智能硬件领域,围绕出境游推出搜狗翻译宝,围绕新闻媒体推出搜狗翻译笔。

在B端场景,搜狗推出机器同声传译、智能分诊,并落地手机语音助手等抢占行业赛道。可以明显感受到,搜狗的AI商业化也在加速。

结语:一面务实技术 一面加速商业化

此次搜狗分身技术的推出,代表了搜狗在多模态交互、语音合成、唇语合成等前沿技术上的进一步探索。

另一面搜狗也开始推动搜狗分身技术进入行业,与新华社一起推出AI合成主播,未来还将会进入更多行业,探索更多的商业落地。

一面务实基础技术的积淀,一面深化AI落地,一项低调的搜狗正在加速AI的商业化进程。