携新华社发布AI虚拟主播搜狗要靠这个技术“克隆”人类

智东西（公众号：zhidxcom）
文 | 寓扬

在去年的乌镇世界互联网大会上，搜狗推出了一项黑科技“唇语识别”，AI不需要听声音，仅靠观察你的唇部动作，就可以理解你说话的内容。读心术固然厉害，读唇术也是相当吸引眼球。

而在今年乌镇世界互联网大会上，搜狗又与新华社一起推出全球首个“AI合成主播”，这个虚拟主播不但能够模仿你的声音，还能够模仿你的表情，成为大会的一大亮点。

从去年的唇语识别到今年的AI合成主播，一方面可以看到搜狗在前沿技术上的积淀与探索，另一方面也可以看到搜狗也在尝试加速AI技术的商业化。智东西近日与搜狗语音交互技术中心总经理王砚峰、语音交互中心高级总监陈伟进行深入沟通，解读搜狗AI合成主播背后的黑科技“搜狗分身”，未来搜狗还要为用户提供个性化的虚拟形象。

一、AI合成主播就将正式上岗新华社

11月7日，在第五届世界互联网大会开幕当天，搜狗和新华社携手在乌镇发布全球首个“AI合成主播”。它以新华社主持人邱浩为原型，由搜狗与新华社新媒体中心共同打造。

AI合成主播能够实现高效的新闻播报。用户只需要输入新闻文本，它就能够用和真人一样的声音进行播报，并且连唇形、面部表情也与真实主持人相吻合。

AI合成主播不仅仅是新华社将AI技术引入新闻报道中的一次尝试，也是“搜狗分身”技术在新闻行业的一次实践。

携新华社发布AI虚拟主播搜狗要靠这个技术“克隆”人类

搜狗CEO王小川表示，搜狗分身技术利用搜狗的AI能力，从图像表情、声音语言习惯、逻辑思维等层面对AI进行拟人化训练，然后“克隆”出人类的AI分身，进而帮助人类提高信息表达和传递的效率。

通俗来讲，由真人主播面对镜头录制一段播报新闻的视频，搜狗分身凭借这段视频就可以将真人主播的声音、唇动、表情动作等特征进行提取，然后通过语音合成、唇形合成、表情合成以及深度学习等技术，“克隆”出与真人主播十分相似的具备新闻播报能力的AI虚拟主播。

通过一段AI合成主播的视频可以看出，这项技术能够让AI较为逼真的模拟人类说话时的声音、嘴唇动作和表情，并且将三者做到近乎自然的匹配。在新闻播报这样相对严肃的场景下，合成主播的表现已经较为接近人类主播的音容相貌。

搜狗公司语音交互技术中心总经理王砚峰告诉智东西，这次与新华社合作的AI合成主播不是一次公关传播，而是搜狗AI技术的又一落地。从当天开始，新华社AI合成主播就将正式上岗，成为新华社报道队伍中新的一员。

举例来说，哪怕主持人邱浩每天工作12小时，一周工作七天，那他每周也只能工作84小时。而只有有足够多的服务器，AI合成主播呈现无数个分身，不间断的工作，这无疑大大节省了节省了人力成本。

并且相对于传统视频新闻需要漫长录制过程而言，只需要将文本输入，合成主播就能够在非常短的时间内生成新闻播报视频，这在大幅压缩新闻播报视频的后期制作成本的同时，也大大提升了传媒业的效率。

二、搜狗分身背后是多模态合成技术的探索

与其说“搜狗分身”是一项技术，不如说它是一个框架，一款产品。它所要做的是“克隆”（合成）人类的声音、嘴唇动作、脸部表情，甚至未来也有可能加入人体、手势等。它是搜狗在多模态合成技术上的一次尝试和探索。

所谓多模态即多种感官的融合，比如搜狗分身技术此次就融合了语音合成、唇语合成以及表情合成等，将几个维度不同特征的感官进行融合，就是多模态合成技术。

其中，语音合成与唇语识别是搜狗之前就积累的技术，而本次搜狗分身中应用到的唇语合成、音视频联合训练、音视频表情生成等都是新的探索。

搜狗语音交互技术中心总经理王砚峰介绍道，基于之前在语音、图像上的基础技术积累，搜狗今年上半年开始尝试多模态合成技术，新华社AI合成主播的推出算是前一阶段成果的展示。目前搜狗分身在一般场景或者相对严肃认真场景下，已经取得了惟妙惟肖的效果。但是在一些情感表达非常丰富的场景（比如表情非常夸张），搜狗分身的效果还有待进一步提升。

在具体的实现路径上，当你输入一段文本后，机器会首先对文本进行韵律预测、情感预测等，比如哪些可能是重音；然后将对应的语音合成和唇语合成按照这个预测来生成，并结合文本与唇形匹配相应的脸部表情；最后在一个时间轴上，将语音、唇动、表情协调一致的进行呈现，使AI能够相对流畅自然的进行表达。

这里面有三个关键环节，其一是语音合成，这一块是听觉的；其二是唇语合成与表情生成，这一块是视觉的；其三是多模态融合进行协调一致的呈现，即如何让AI主播的声音、唇动、表情相匹配。

王砚峰表示，搜狗分身技术中有2个关键难点，一个是唇语合成，一个是声音、唇动、表情的协调匹配。

唇语合成在技术原理上与语音合成较为相似，但唇语合成要比语音合成难很多，因为语音合成是一维线性问题，而唇形合成则是三维的。作为一个虚拟形象主播，它的唇形要跟文本内容、语音、发音方式等都要协调一致。

另外一个难点在于视频生成。即使语音合成能够做到惟妙惟肖，唇语合成也能够做到相当逼真，但是如何将声音、唇动、表情在一条时间轴上匹配起来就比较困难。因为这已经是一个视频生成的问题，需要保证三者的协调一致、连贯自然，这也是搜狗分身的一大亮点。

通过搜狗分身技术，用户也可以打造个性化的虚拟形象。王砚峰称，目前通过搜狗分身技术，大约需要一个小时的用户音视频数据，就可以做出一个效果较好的AI合成主播。

这一生成时间仍相对较长，因为目前多模态合成仍在早期阶段。随着多模态合成数据积累的足够多，我们就可以将其共性抽出形成基线数据，在生成个性化形象时，可能只需要几分钟把个性化数据建立起来，就可以生成一个效果良好的虚拟形象。

搜狗语音交互中心高级总监陈伟也向智东西透露，下一阶段，搜狗希望将搜狗分身的制作成本降下来，比如能否通过上传一小段视频或者照片就可以进行虚拟形象的生成，下一代的搜狗分身技术他们也在研发中。

三、搜狗分身的商业化才刚刚开始

从去年的将语音识别和唇语识别结合在一起做识别技术，到今年的将语音合成唇语合成等结合起来做合成技术，搜狗在多模态交互上的步伐又深入一步。

搜狗之所以在多模态交互上有这么多尝试，这跟它的AI理念——“自然交互+知识计算”有很大关系。王砚峰称，目前的人机交互界面还是冷冰冰的，比如智能音箱，即使加入一些卖萌的元素，但交互感还是较差。而搜狗让机器以更逼真自然的形象呈现在用户面前。

他还表示，在人机交互上，目前业内主要做的是语音交互，但搜狗认为未来的交互一定是多模态的交互，正是基于这一考虑，搜狗围绕交互在语音、视觉技术上均有积淀，并积极探索多模态的应用。

无论是多模态交互还是语音合成，都是近两年业界关注的一个重点。但受限于应用场景，行业在多模态交互上的探索主要集中在机器的输入端，比如智能音箱场景。在多模态合成上，行业更是处于发展初期。

搜狗语音交互中心高级总监陈伟也谈道，无论是做语音合成，还是做视频生成预测，目前许多AI公司也都在做，但以单模态居多。搜狗将语音合成唇语合成等结合起来做合成技术，包括之前将语音识别和唇语识别结合在一起做识别技术，就是希望打通多模态之间的连接，做到不同模态的融合。

搜狗分身正是搜狗在多模态合成技术上的一次探索，它是人工智能在模仿人类领域的一次新进展。

一方面务实基础技术研发的同时，搜狗的AI商业化落地也在同步推进。王砚峰介绍道，新华社的AI合成主播是搜狗分身技术的第一个落地场景，它除了在新闻播报领域的应用外，还有更广泛的应用空间可以探索。

比如在线教育场景，可以用搜狗分身做音视频的合成，提升教育行业的效率，同时增强与用户的互动性。

再比如虚拟助理，相比目前的语音助手，带有形象的虚拟助理更贴近人类，在交互中也更加贴近人类的期待，这在未来也会是一个巨大的场景。

“搜狗分身”技术将在娱乐、医疗、健康、教育、法律等多个领域提供个性化的内容，从而提升各个行业的效率和服务体验。

除了搜狗分身外，近期搜狗也在围绕语言与交互抢占行业赛道。比如在C端场景，将AI引入搜狗输入法，在语音合成上推出搜狗制音坊；在智能硬件领域，围绕出境游推出搜狗翻译宝，围绕新闻媒体推出搜狗翻译笔。

在B端场景，搜狗推出机器同声传译、智能分诊，并落地手机语音助手等抢占行业赛道。可以明显感受到，搜狗的AI商业化也在加速。

结语：一面务实技术一面加速商业化

此次搜狗分身技术的推出，代表了搜狗在多模态交互、语音合成、唇语合成等前沿技术上的进一步探索。

另一面搜狗也开始推动搜狗分身技术进入行业，与新华社一起推出AI合成主播，未来还将会进入更多行业，探索更多的商业落地。

一面务实基础技术的积淀，一面深化AI落地，一项低调的搜狗正在加速AI的商业化进程。

一、AI合成主播就将正式上岗新华社

二、搜狗分身背后是多模态合成技术的探索

三、搜狗分身的商业化才刚刚开始

结语：一面务实技术 一面加速商业化

相关推荐

结语：一面务实技术一面加速商业化