如何让虚拟人物更加真实地传达情感,一直是AI数字人领域的研究重点。传统的说话头部动画技术虽然能够模拟人物的嘴型和基本表情,但在精细控制和情感表达上仍有局限。

为此,上海交通大学联合网易伏羲提出用于对话人脸生成的高效解耦框架EDTalk,现已开源。相关的论文成果收录于ECCV 2024并获得Oral。其中,上海交通大学计算机系在读博士谭帅为论文一作。

ECCV 2024 Oral!上交大联合网易伏羲开源用于对话人脸生成的高效解耦框架EDTalk | 一作谭帅博士主讲预告

EDTalk能够实现对多种面部动作的分离控制,并适应不同的输入模式,提高对话人脸生成的应用性和娱乐性。它能确保面部特征的解耦空间独立操作,互不干扰;并保持与不同模态输入共享。EDTalk可以根据视频或音频输入,对嘴形、头部姿势和情感表达进行单独操作。具体来说,该框架采用三个轻量级模块将面部动态分解为三个不同的潜在空间,分别代表嘴型、姿势和表情。每个空间都有一组可学习的基,这些基的线性组合定义了特定的动作。

为了确保独立性并加快训练速,该团队强制执行了基数之间的正交性,并设计了一种高效的训练策略,在不依赖外部知识的情况下给每个空间赋予其特定的运动方向。随后将学习到的基存储在相应的库中,从而实现与音频输入共享视觉先验。此外,考虑到每个空间的特性,该团队提出了音频到动作模块,用于音频驱动的对话人脸合成。

ECCV 2024 Oral!上交大联合网易伏羲开源用于对话人脸生成的高效解耦框架EDTalk | 一作谭帅博士主讲预告

12月30日晚7点,智猩猩邀请到论文一作、上海交通大学计算机系在读博士谭帅参与「智猩猩AI新青年讲座」第262讲,主讲《高效解耦的可控对话人脸生成》。

讲者

谭帅,上海交通大学计算机系在读博士

主要研究方向是数字人驱动/Talking head generation/face animation,共发表论文11篇,其中以第一作者身份发表CVPR/ICCV/ECCV/AAAI/MICCAI等会议共6篇。

第 262 讲

主 题

《高效解耦的可控对话人脸生成》

提 纲

1、对话人脸生成技术当前存在的不足
2、高效解耦用于可控对话人脸生成的框架EDTalk
3、分解嘴型-姿势和表情的解耦策略
4、用于生成音频驱动对话人脸的音频动作模块
5、其他相关工作介绍

直 播 信 息

直播时间:12月30日19:00

成果

论文成果1

标题:
《EDTalk: Efficient Disentanglement for Emotional Talking Head Synthesis》

链接:
https://arxiv.org/abs/2403.06363

项目地址:
https://tanshuai0219.github.io/EDTalk/

收录情况:ECCV 2024 Oral

论文成果2

标题:
《EMMN: Emotional Motion Memory Network for Audio-driven Emotional Talking Face Generation》

链接:
https://ieeexplore.ieee.org/document/10378627

收录情况:ICCV 2023 (CCF-A)

论文成果3

标题:
《Say anything with any style》

链接:
https://arxiv.org/abs/2403.06363

收录情况:AAAI 2024 (CCF-A)

论文成果4

标题:
《Style2talker: High-resolution talking head generation with emotion style and art style》

链接:
https://arxiv.org/abs/2403.06365

收录情况:AAAI 2024 (CCF-A)

论文成果5

标题:
《FlowVQTalker: High-Quality Emotional Talking Face Generation through Normalizing Flow and Quantization》

链接:
https://arxiv.org/abs/2403.06363

收录情况:AAAI 2024 (CCF-A)

入群申请

有讲座直播观看需求的朋友,可以添加小助手“米娅”进行报名。已添加过“米娅”的老朋友,可以给“米娅”私信,发送“ANY262”进行报名。对于通过报名的朋友,之后将邀请入群进行观看和交流。

ECCV 2024 Oral!上交大联合网易伏羲开源用于对话人脸生成的高效解耦框架EDTalk | 一作谭帅博士主讲预告