「智猩猩AI新青年讲座」由智猩猩出品,致力于邀请青年学者,主讲他们在生成式AI、LLM、AI Agent、CV等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑,将可以帮助大家增进对人工智能前沿研究的理解,相应领域的专业知识也能够得以积累加深。同时,通过与AI新青年的直接交流,大家在AI学习和应用AI的过程中遇到的问题,也能够尽快解决。

生成高质量的无限大的3D场景在视频游戏、电影制作、增强现实和虚拟现实(VR/AR)等领域至关重要。且用户对高质量3D生成内容的需求日益增长,这使得3D生成成为一个重要的研究课题。然而,现有的方法主要集中在生成具有固定空间范围的3D内容(如有限尺寸的小物体)。为了实现无限大的3D场景生成,腾讯XR视觉实验室联合东京大学等高校共同提出了基于扩散模型的可扩展3D场景生成框架BlockFusion。相关论文为《BlockFusion: Expandable 3D Scene Generation using Latent Tri-plane Extrapolation》,已收录于SIGGRAPH 2024。腾讯开源BlockFusion:基于扩散模型和三平面外插法的无限大3D场景生成 | 一作东京大学吴桢楠博士讲座预告

BlockFusion是一种基于三平面扩散的方法来生成可扩展的3D场景:以3D块的形式生成3D场景、通过直观的滑动3D块方式扩展场景。

首先,将完整的3D场景网格随机裁剪成不完整的3D块,并进行逐块拟合,将所有训练块转换为由几何特征的三平面以及用于解码带符号距离值(SDF)的多层感知器(MLP)构成的混合神经场。

同时,为了提高计算效率,使用变分自编码器将原始三平面压缩到潜在三平面空间。在潜在三平面空间中,使用扩散模型生成高质量和多样化的3D场景。

在场景扩展过程中,主要通过在去噪迭代过程中使用重叠三平面的特征样本来实现外推过程。即添加空块与当前场景重叠,并使用外推机制产生与现有场景协调融合的语义和几何过渡。

为了能更好地控制生成过程,BlockFusion引入了一个2D布局条件控制机制,允许用户通过操作2D对象边界框来精确确定场景元素的放置和排列。

BlockFusion在室内和室外场景中均能够生成具有高质量、几何形状多样化、几何一致性和无界的大型3D场景。

腾讯开源BlockFusion:基于扩散模型和三平面外插法的无限大3D场景生成 | 一作东京大学吴桢楠博士讲座预告

7月9日10点,智猩猩邀请到论文一作、东京大学工学系研究科电气系工学专攻在读博士吴桢楠参与「智猩猩AI新青年讲座」243讲,主讲《基于扩散模型和三平面外插法的无限大3D场景生成》。

讲者

吴桢楠

东京大学工学系研究科电气系工学专攻在读博士

2019年本科毕业于中国科学技术大学信息安全专业。主要研究方向:3D AI生成模型。科研成果曾发表于深度学习与图形学顶级会议(ICLR、SIGGRAPH),并担任SIGGRAPH ASIA 2024会议审稿人。

第243讲

主 题
基于扩散模型和三平面外插法的无限大3D场景生成
提 纲
1、场景生成面临的问题
2、可扩展的3D场景生成模型BlockFusion
2.1场景块的拟合及压缩
2.2条件控制导入
2.3场景块的外插算法
3、实验分析与应用

直播信息

直播时间:7月9日10:00
直播地点:智猩猩GenAI视频号

成果

论文标题
《BlockFusion: Expandable 3D Scene Generation using Latent Tri-plane Extrapolation》
论文链接
https://arxiv.org/abs/2401.17053
项目网站
https://yang-l1.github.io/blockfusion/

直播预约

本次讲座将在智猩猩GenAI视频号进行直播,欢迎预约~

入群申请

本次讲座组建了学习交流群。加入学习交流群,除了可以观看直播,并提前拿到课件外,你还能结识更多研究人员和开发者,所提问题也将会优先解答。

希望入群的朋友可以扫描下方二维码,添加小助手米娅进行申请。已添加过米娅的老朋友,可以给米娅私信,发送“243”进行申请。

腾讯开源BlockFusion:基于扩散模型和三平面外插法的无限大3D场景生成 | 一作东京大学吴桢楠博士讲座预告