「AI新青年讲座」将邀请世界顶尖AI研究机构和大学的科研新青年,主讲他们在计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑,将可以帮助大家增进对人工智能前沿研究的理解,相应领域的专业知识也能够得以积累加深。同时,通过与AI新青年的直接交流,大家在AI学习和应用AI的过程中遇到的问题,也能够尽快解决。

「AI新青年讲座」目前已完结221讲;有兴趣分享学术成果的朋友,可以与智东西公开课教研团队进行邮件(class@zhidx.com)联系。

基于文本的图像生成技术近期取得了显著的进展,相比之下,文本到 3D 生成的质量仍难达到相应的高度。现有方法主要依赖于 DreamFusion 提出的由文本引导的分数蒸馏采样方法(SDS),虽然已取得可喜的进展,但仍存在下述问题:

1、缺乏人体三维先验知识,现有方法难以生成可控动作和形态的高保真度三维人体模型;
2、预训练的二维图像扩散模型的限制,现有方法容易出现“多脸”问题,并很难在保持原有特征的情况下完成三维人体的精细编辑;

针对第一个问题,香港大学的研究者提出新框架  DreamAvatar ,利用 SMPL 人体先验知识的方法,从而有效控制生成人体的动作以及形态。他们同时提出双重空间的设计的方法,有效的将在标准空间中学习到的高质量几何和纹理,转移到观察空间中。

针对第二个问题,研究者设计新框架 HeadSculpt ,提出了 Prior-driven Score Distillation 方法,并利用 FLAME 人头先验模型,textual inversion 以及 ControlNet,解决三维生成任务中常见的多脸问题。他们进一步提出 Identity-aware Editing Score Distillation 方法,进而实现高精细度的编辑工作,并同时能够有效的保持原有三维模型的特征。这些方法能够有效的提高三维人体生成和编辑的能力。

8月10日晚7点,「AI新青年讲座」第 222 讲邀请到DreamAvatar、HeadSculpt一作,香港大学在读博士操雨康参与,主讲《基于二维扩散模型的可控三维人体生成和编辑》。

讲者
操雨康香港大学在读博士,香港校长奖学金获得者,师从 Kenneth Wong 教授。博士期间,他有幸与香港大学韩锴博士和腾讯曹炎培博士合作密切。他的研究兴趣主要集中在计算机视觉和深度学习领域,包括三维人体重建、二维/三维人体生成等。近几年他以第一作者在 CVPR发表多篇论文,并于近期进行了三维人体生成的多个探索。他目前担任 CVPR,ICCV,NeurIPS,Siggraph Asia 等顶级会议的审稿人。

主 题
《基于二维扩散模型的可控三维人体生成和编辑》

提 纲
1、文本到3D生成的研究及难点
2、可控动作和形态的三维人体生成
3、精细编辑下的高保真三维人头生成
4、实验结果展示及未来展望

直 播 信 息

直播时间:8月10日19:00
直播地点:智东西公开课知识店铺

成果
论文标题:
《DreamAvatar: Text-and-Shape Guided 3D Human Avatar Generation via Diffusion Models》
《HeadSculpt: Crafting 3D Head Avatars with Text》

论文地址:
https://arxiv.org/abs/2304.00916
https://arxiv.org/abs/2306.03038

代码地址:
https://github.com/xinyu1205/recognize-anything
Huggingface Demo:https://huggingface.co/spaces/xinyu1205/recognize-anything