智东西(公众号:zhidxcom)
作者 | 程茜
编辑 | 漠影
视频生成竞赛愈发激烈,但细腻、准确地传达人物面部表情细节仍然是其中的一大难点。
一般的影视作品或者日常交流中,人们说话时伴随着的面部表情变化也是准确传递信息的关键。在视频生成中,想要让人物的整体表现更加流畅自然,就需要将人物的动作、皮肤纹理、肌肉运动等细节呈现更为细腻。
这对于AI而言难度不小。近期在肖像生成方面的一项研究突破,就针对于上述难题给出了解法。
这就是字节跳动智能创作团队近期提出的X- Portrait 2单图视频驱动技术,仅需要一张静态图片和一段驱动视频,用户就可以得到高质量、电影级的视频片段。
如果我同时上传了《白银帝国》中演员金士杰的视频片段,和一张AI生成的紫发外国女生的静图,就可以让女生直接复刻电影片段的动作。
可以看到,下图中静态图和驱动视频中的人物形象区别很大,并且即使人物表情变化包含大笑、张大嘴等,X-Portrait 2最后生成的效果也完全没有被影响,只是集中于面部表情、头部动作的变化。
生动丰富的表情是塑造角色性格的关键,可以看出,当下的肖像生成技术正在向着更精细地模拟人类微观表情进阶。
一、经典镜头秒速复刻,大笑、扭头面部均不变形
细致入微的表情,往往是演员传达情绪的关键,现在这项工作也能被AI接管了。
在体验这项技术之初,我设定的初始难度是调用较少感官的表情,如只需要眨眼、大笑等,这考验的就是X- Portrait 2在生成过程中,如何让静图中的人物准确调用正确的感官,并将情绪准确传达出来。
相信很多人都对《大话西游》中紫霞仙子眨眼的镜头记忆犹新,这也被认为是很难超越的眨眼神图,如果把这个表情搬到著名表情包“金馆长”脸上呢?
可以看到,最后生成的视频中,金馆长的眼睛被放大,从抿嘴到眨眼一气呵成,面部完全没有变形,直接复刻了这一经典画面。
那如果将金馆长的经典大笑表情包放到其他人脸上呢?我利用豆包生成了一张科幻属性明显的人物图像,然后上传了金馆长从大笑到说话的视频片段。
静态图中的人物不仅模仿了金馆长的大笑神态,就连大笑时面部的皱纹、头部的轻微上下摆动动作都传递的十分到位。
考验完单一表情,再来看下进阶难度。
这一关的原视频人物说话过程中会伴随情绪的转换,例如下个视频中张译表演时的花絮片段,从刚开始说话到扭头大笑。
然后我上传了一张美国著名男演员本·阿弗莱克(Ben Afflec)的剧照,生成视频中,大本和张译大笑时咧开的嘴角弧度都完全相同。并且从侧脸转向正脸时的动作也十分流畅。
二、阿凡达、灭霸梦幻联动,人人都能做出迪士尼公主表情
X-Portrait 2除了能让一张图片按你想要的风格动起来,还能把相同表情直接搬到各种风格的人物形象上。
基于此,我直接让经典科幻电影《阿凡达》中的阿凡达,与漫威系列中的灭霸来了一场梦幻联动。
我上传了一段电影中女主角涅提妮与他人产生剧烈争执的视频,还有一张灭霸的静态图片。视频中的涅提妮边倒退边显露出悲伤的神色。
灭霸也展现出了同样的深情,并且额头上的皱纹还会伴随着情绪变化逐渐加深。
动画电影中迪士尼公主的神态动作已经自成体系,让人一看到就身处“迪士尼宇宙”。与此同时,一些互联网上的博主纷纷开启了模仿迪士尼公主的挑战,她们的表情神态惟妙惟肖,现在X-Portrait 2可以让任何人都能快速get这个技能。
这里我选择上传了一张AI生成的动漫人物形象,以及短视频平台中博主上传的模仿视频。可以看到,原视频的博主眼神、嘴部以及整个表情都很夸张,这个难度X-Portrait 2的生成效果并没有翻车。
我还上传了其他博主的模仿视频,生成的效果直接让本来只是一张静态图片的公主,直接身处童话世界了,好奇、开心的表情十分可爱逼真。
现在有很多动画电影还会被改编成真人电影,但这类电影在选择演员、剧情改编、演员表演等方面都会让原先的动漫读者忐忑不安,因为很多剧情真人演员很难表演出来,部分表情、动作甚至剧情会被改编。
现在基于X-Portrait 2可以直接将动漫人物的表情“复制”下来,“粘贴”到其他人物上。我上传了一段《美女与野兽》中“野兽”的一段视频,视频中“野兽”的五官与人类类似,还伴随着大吼的动作。
这段表演被准确复制到了我用AI生成的图片上,X-Portrait 2在表情识别方面没有受到干扰,眼睛、嘴巴的动作变化丝滑流畅,复刻了“野兽”的愤怒情绪。
可以看出,X-Portrait 2在表情生成方面的效果逼真程度可以体现在,眼部、嘴部的动作以及表情切换、动作协同性等诸多方面,能让静态形象的表情生成与其他动作配合协同。
三、表情编码器模型+生成扩散模型,实现表情“复刻”效果跃迁
上述这些肖像生成的惊艳效果均出自X-Portrait 2。
今年3月,字节跳动的第一代肖像动画模型X-Portrait,可以用于生成富有表现力和时间连贯的肖像动画。X-Portrait 2就是这一肖像动画模型的迭代版本,能够如实表现快速的头部动作、细微的表情变化以及强烈的个人情感。
为了让最后生成视频的表情更加流畅、逼真,X-Portrait 2结合了表情编码器模型和生成扩散模型,能够捕捉到驱动视频中演员的细微表情,甚至于撅嘴、吐舌头等需要调动多个面部器官的表情也能准确传达。
这一表情编码器模型是基于大型数据集进行训练,隐式编码输入中的每个微小表情,就可以做到表情传达的准确性。
面对驱动视频,这一编码器还可以实现人物外观和表情动作的强分离,能够让其更专注于视频中与表情相关的信息,从而实现表情动作的准确迁移。
通过为模型设计过滤层,编码器能有效过滤运动表征中的ID相关信号,使得即使ID图片与驱动视频中的形象和风格差异较大,模型仍可实现跨ID、跨风格的动作迁移,涵盖写实人像和卡通图像。
目前,除了X-Portrait 2,视频生成创企Runyway上个月也推出了类似的功能Act-One,这一功能可以让用户自己录一段视频,然后将其转移到AI生成的角色上。
相比之下,X-Portrait 2可以更准确地传递人物头部的动作、微笑的表情变化和个人情感表达;Act-One最终生成的视频也可以传达表情,但在人物情绪和快速的头部动作方面可能无法准确“复刻”。
下图的对比视频中可以看出,原视频中人物很悲伤,且说话中头部有轻微转动,但基于X-Portrait和Act-One生成的视频都没有将其体现出来,X-Portrait视频中人物头部摆动幅度复现了,但两个视频中的人物表情有轻微笑意,与原视频的情绪完全不同。
面部细节还原、头部动作与姿态的协调等,都是做到精准表情生成的关键,这也是目前X-Portrait 2的优势所在。
结语:让视频生成突破表情细节难题
在视频生成的众多环节中,表情生成是一个极具挑战性的部分,因为与人物整体的动作生成相比,细致入微的表情生成要困难得多,一个细微的面部肌肉变化都可能传达出截然不同的情绪。
尽管这项技术目前还处于学术研究阶段,但字节跳动在这一方面的积极探索具有深远的意义,通过不断地优化算法和模型结构,X-Portrait 2已经展现出捕捉和再现人物表情微妙变化的能力。这种进步将进一步拓展视频生成的应用边界。