NeRF在表达3D模型上取得了巨大进展,也因其在捕捉高分辨率几何体和渲染新奇视图方面的强大能力而越来越受欢迎,激发了许多后续的工作。然而利用NeRF表达的3D模型非常不直观,并且很难编辑。

为了实现可编辑的NeRF,香港城市大学可视化计算实验室在读博士王灿等人利用CLIP(对比文本-图像对预训练模型)的多模态功能,提出一个统一的框架CLIP-NeRF,通过文本提示或者参考图像以及培训策略来操纵NeRF的形状和外观。最后,使用一种反演方法,使其能够在真实图像中推断形状和外观代码,并且允许编辑现有的形状以及外观。

除此之外,王灿博士等人还提出一种文本引导的NeRF风格化模型NeRF-Art,将NeRF与CLIP相结合,给定预训练的NeRF模型和文本提示,就能合成指定样式的新视图。与其他的风格化不同,NeRF-Art无需任何网格指导,其引入一种方向组合约束来控制风格,并引入了新的全局-局部对比度损失,来使结果更加接近目标风格,实现仅用文本即可显示几何体变形和纹理信息的视觉效果。

此外,王灿博士等人还提出一种权重正则化策略,来缓解几何体变形中的模糊伪影。在真实人脸和一般场景上的大量实验表明,NeRF-Art在单视图风格化质量和跨视图一致性方面都是有效且稳健的。

10月28日晚6点,「AI新青年讲座」第167讲邀请到香港城市大学可视化计算实验室在读博士王灿参与,主讲《基于文本控制的可编辑NeRF三维重建》。

讲 者

王灿,香港城市大学可视化计算实验室在读博士;师从廖菁老师,研究兴趣包括情感计算、三维重建与编辑、多模态,以及医疗数据挖掘。当前的研究方向为NeRF的重建与编辑。目前在CVPR、TVCG等会议和期刊上发表多篇学术论文。

主 题

基于文本控制的可编辑NeRF三维重建

提 纲

1、可编辑NeRF实现难点
2、分离几何与纹理的NeRF生成框架
3、基于视觉语言预训练模型的NeRF几何与纹理编辑
4、利用文本图像对比学习提升NeRF编辑效果

直播信息

直播时间:10月28日18:00
直播地点:智东西公开课知识店铺

成 果

CLIP—NeRF:《CLIP-NeRF: Text-and-Image Driven Manipulation of Neural Radiance Fields》
论文链接:https://arxiv.org/pdf/2112.05139.pdf
开源代码:https://github.com/cassiePython/CLIPNeRF