香港大学在读博士曹雨康：基于二维扩散模型的可控三维人体生成和编辑｜AI新青年讲座

「AI新青年讲座」将邀请世界顶尖AI研究机构和大学的科研新青年，主讲他们在计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑，将可以帮助大家增进对人工智能前沿研究的理解，相应领域的专业知识也能够得以积累加深。同时，通过与AI新青年的直接交流，大家在AI学习和应用AI的过程中遇到的问题，也能够尽快解决。

「AI新青年讲座」目前已完结221讲；有兴趣分享学术成果的朋友，可以与智东西公开课教研团队进行邮件（class@zhidx.com）联系。

基于文本的图像生成技术近期取得了显著的进展，相比之下，文本到 3D 生成的质量仍难达到相应的高度。现有方法主要依赖于 DreamFusion 提出的由文本引导的分数蒸馏采样方法（SDS），虽然已取得可喜的进展，但仍存在下述问题：

1、缺乏人体三维先验知识，现有方法难以生成可控动作和形态的高保真度三维人体模型；
2、预训练的二维图像扩散模型的限制，现有方法容易出现“多脸”问题，并很难在保持原有特征的情况下完成三维人体的精细编辑；

针对第一个问题，香港大学的研究者提出新框架 DreamAvatar ，利用 SMPL 人体先验知识的方法，从而有效控制生成人体的动作以及形态。他们同时提出双重空间的设计的方法，有效的将在标准空间中学习到的高质量几何和纹理，转移到观察空间中。

针对第二个问题，研究者设计新框架 HeadSculpt ，提出了 Prior-driven Score Distillation 方法，并利用 FLAME 人头先验模型，textual inversion 以及 ControlNet，解决三维生成任务中常见的多脸问题。他们进一步提出 Identity-aware Editing Score Distillation 方法，进而实现高精细度的编辑工作，并同时能够有效的保持原有三维模型的特征。这些方法能够有效的提高三维人体生成和编辑的能力。

8月10日晚7点，「AI新青年讲座」第 222 讲邀请到DreamAvatar、HeadSculpt一作，香港大学在读博士操雨康参与，主讲《基于二维扩散模型的可控三维人体生成和编辑》。

讲者
操雨康香港大学在读博士，香港校长奖学金获得者，师从 Kenneth Wong 教授。博士期间，他有幸与香港大学韩锴博士和腾讯曹炎培博士合作密切。他的研究兴趣主要集中在计算机视觉和深度学习领域，包括三维人体重建、二维/三维人体生成等。近几年他以第一作者在 CVPR发表多篇论文，并于近期进行了三维人体生成的多个探索。他目前担任 CVPR，ICCV，NeurIPS，Siggraph Asia 等顶级会议的审稿人。

主题
《基于二维扩散模型的可控三维人体生成和编辑》

提纲
1、文本到3D生成的研究及难点
2、可控动作和形态的三维人体生成
3、精细编辑下的高保真三维人头生成
4、实验结果展示及未来展望

直播信息

直播时间：8月10日19:00
直播地点：智东西公开课知识店铺

成果
论文标题：
《DreamAvatar: Text-and-Shape Guided 3D Human Avatar Generation via Diffusion Models》
《HeadSculpt: Crafting 3D Head Avatars with Text》

论文地址：
https://arxiv.org/abs/2304.00916
https://arxiv.org/abs/2306.03038

代码地址：
https://github.com/xinyu1205/recognize-anything
Huggingface Demo：https://huggingface.co/spaces/xinyu1205/recognize-anything

相关推荐