香港中文大学在读博士刘政哲：以图为梯——从文字到 3D 形状生成｜AI新青年讲座

「AI新青年讲座」将邀请世界顶尖AI研究机构和大学的科研新青年，主讲他们在计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑，将可以帮助大家增进对人工智能前沿研究的理解，相应领域的专业知识也能够得以积累加深。同时，通过与AI新青年的直接交流，大家在AI学习和应用AI的过程中遇到的问题，也能够尽快解决。

「AI新青年讲座」目前已完结211讲，有兴趣分享学术成果的朋友，可以与智东西公开课教研团队进行邮件（class@zhidx.com）联系。

基于文本的生成任务是当前的一个研究热点。其中，文本到三维形状生成主要是利用深度学习模型和生成模型，将文本描述映射到三维形状的表示空间，并生成符合文本描述的三维形状或物体模型。现阶段，该任务仍然具有挑战性，原因是缺乏大规模的文本-形状配对数据、这两种模态之间存在实质性的语义差距，以及三维形状的结构复杂性。

来自香港中文大学、香港大学以及湖南大学的研究者们，在 ICLR 2023 上提出了一种新的文本引导 3D 形状生成方法（ISS）。该方法使用图像作为阶梯来连接文本和 3D 形状，无需成对的文本和 3D 数据即可生成 3D 形状。其核心是一种两阶段特征空间对齐策略。首先，将 CLIP 图像特征映射到 SVR 模型的细节丰富的 3D 形状空间，然后通过鼓励渲染图像和输入文本之间的 CLIP 一致性，将 CLIP 文本特征添加到 3D 形状空间。

此外，为了扩展 SVR 模型的生成能力，他们设计了一个文本引导的 3D 形状风格化模块，可以生成新颖的结构和纹理来创造出更有趣的结果。同时，他们利用预训练的文本到图像扩散模型来增强生成多样性、保真度和程式化能力。实验结果表明，ISS 在生成质量和与输入文本的一致性方面优于最先进的方法。

6月6日晚8点，「AI新青年讲座」第212讲邀请到 ISS 一作、香港中文大学在读博士刘政哲参与，主讲《以图为梯：从文字到 3D 形状生成》。

讲者
刘政哲，香港中文大学在读博士；师从Philip Chi-Wing Fu教授；主要研究方向包括AIGC、3D生成等；曾在CVPR、TPAMI、ECCV、ICLR、NeurIPS、AAAI等顶级会议和期刊发表论文十余篇；担任CVPR、ICCV、ECCV、ICLR、NeurIPS、TPAMI等顶会和期刊审稿人；曾获2022年微软学者提名。

第212讲

主题
《以图为梯：从文字到 3D 形状生成》

提纲
1、文本到 3D 内容生成的研究及难点
2、快速的文字到形状生成方法 ISS
3、文字引导的 3D 形状风格化
4、利用图像扩散模型提升生成质量和类别范围

直播信息
直播时间：6月6日20:00
直播地点：智东西公开课知识店铺

成果

论文标题：
《ISS : Image as Stepping Stone for Text-Guided 3D Shape Generation》
《ISS++: Image as Stepping Stone for Text-Guided 3D Shape Generation》

论文地址
https://arxiv.org/abs/2209.04145
https://arxiv.org/pdf/2303.15181

代码地址
https://github.com/liuzhengzhe/ISS-Image-as-Stepping-Stone-for-Text-Guided-3D-Shape-Generation

相关推荐