基于预训练模型的高质量视觉内容生成：从图像生成到三维创作

「AI新青年讲座」将邀请世界顶尖AI研究机构和大学的科研新青年，主讲他们在计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑，将可以帮助大家增进对人工智能前沿研究的理解，相应领域的专业知识也能够得以积累加深。同时，通过与AI新青年的直接交流，大家在AI学习和应用AI的过程中遇到的问题，也能够尽快解决。

「AI新青年讲座」目前已完结203讲；有兴趣分享学术成果的朋友，可以与智东西公开课教研团队进行邮件（class@zhidx.com）联系。

近年来，随着虚拟现实、视频游戏等应用的需求不断增加，生成高质量视觉内容的需求日益增加，但是创建这些内容不仅耗时且需要艺术专业知识。最近，生成模型的进展催生了人工智能生成内容（AIGC）技术，使得人们可以快速生成不同的视觉内容。

这些生成模型通常是针对特定的生成任务，在大规模数据集上进行训练，但获得大规模特定数据的困难性使得生成模型在许多任务上的表现被极大限制。另外，创建个性化的 3D 形象在如今的视觉内容生成任务中非常普遍，既然现在的AI技术已经可以生成惟妙惟肖的 2D 图像，那么在 3D 世界中，是否可以仅通过一张照片就量身定制自己的 3D 人物形象呢？

针对这个问题，来自香港科技大学和微软亚洲研究院的研究者，在 CVPR 2023 中，提出了第一个利用扩散模型生成 3D 内容的 Roll-out Diffusion Network（RODIN）模型。与传统 3D 建模需要投入大量人力成本、制作过程繁琐不同， RODIN 以底层思路的创新突破和精巧的模型设计、结合 3D 扩散模型和 NeRF，实现了仅需输入一张图片甚至一句文字描述就能在几秒之内生成高质量的定制化 3D 人物形象。

RODIN 模型首次提出 3D Diffusion Model，用高效的 2D 架构进行 3D 感知扩散，将三维图像降维成二维图像，大幅降低了计算复杂度和计算成本，让低成本定制 3D 人像成为可能。

4月17日晚7点，AI新青年讲座第204讲邀请到 RODIN 一作、香港科技大学在读博士王腾飞参与，主讲《基于预训练模型的高质量视觉内容生成：从图像生成到三维创作》。

本次讲座涵盖了视觉内容生成的三个主要领域。王腾飞博士将首先讲解使用预训练 GAN 进行人脸图像编辑，之后重点分析使用扩散模型将预训练方法扩展到人脸以外的一般图像生成。最后，王博也将转向 3D 内容创建，详解 RODIN 模型。

讲者
王腾飞，香港科技大学在读博士，研究方向为高质量视觉内容生成，包括 2D、3D 数字人生成以及通用场景的 2D 图像与 3D 模型生成；在 CVPR、ICCV 等顶级会议发表过多篇一作论文以及口头报告，GitHub 开源项目星标超1000；同时担任 CVPR、ICCV、SIGGRAPH 等顶级会议审稿人，并且担任香港科技大学 ACM 队助理教练。

第204讲

主题
《基于预训练模型的高质量视觉内容生成：从图像生成到三维创作》
提纲
1、高质量视觉内容生成的传统方法及局限
2、基于预训练生成模型的视觉内容创建新范式
3、使用预训练GAN和扩散模型实现人脸编辑和一般图像生成
4、结合3D扩散模型和NeRF生成高质量3D人物形象

直播信息
直播时间：4月17日19:00
直播地点：智东西公开课知识店铺

成果
《Rodin: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion》
https://arxiv.org/abs/2212.06135
https://3d-avatar-diffusion.microsoft.com/

《3D GAN Inversion with Facial Symmetry Prior》
https://arxiv.org/abs/2211.16927
https://feiiyin.github.io/SPI/

《Pretraining is All You Need for Image-to-Image Translation》
https://arxiv.org/abs/2205.12952
https://tengfei-wang.github.io/PITI/index.html

《High-Fidelity GAN Inversion for Image Attribute Editing》
https://arxiv.org/abs/2109.06590
https://tengfei-wang.github.io/HFGI/

相关推荐