时间输入对于3D占用预测非常重要,而现有方法大多遵循传统的感知、转换和融合流程。即给定顺序输入信息,感知模块独立获得每个帧的场景表示,例如BEV特征以及体素特征;并且转换模块根据自车轨迹对齐多帧的时序特征信息,融合模块融合对齐的特征表示以推断当前的3D占用情况。这些方法未能考虑驾驶场景演变的固有连续性和简单性。

为此,清华大学自动化系提出一个基于高斯世界模型的流式三维语义占用预测模型GaussianWorld,现已开源。与GaussianWorld相关的论文成果已投稿CVPR 2025,清华大学自动化系智能视觉实验室(IVG)博士生左思成为论文一作。

清华开源GaussianWorld:基于高斯世界模型的3D占用预测模型 | 一作左思成博士主讲预告

GaussianWorld采用显式3D高斯作为场景表示,而不是传统的隐式 BEV/Voxel 表示,这可以实现物体运动的显式和连续建模。给定历史 3D 高斯和当前视觉输入,GaussianWorld算法模型旨在预测场景如何演变并预测当前的占用情况。

为了证明提出的GaussianWorld算法模型的有效性,在nuScenes数据集上进行了大量实验。实验表明,GaussianWorld 可以有效地预测场景演变,并在不引入额外计算的情况下将单帧占用率预测提高 2% 以上(mIoU)。与现有方法相比,该模型在不引入额外计算开销的前提下,展示了SOTA的性能。

清华开源GaussianWorld:基于高斯世界模型的3D占用预测模型 | 一作左思成博士主讲预告

1月13日晚上7点,智猩猩邀请到论文一作、清华大学智能视觉实验室(IVG)博士生左思成参与「智猩猩新青年讲座自动驾驶专题」第42讲,主讲《基于高斯世界模型的流式3D占用预测》。

讲者

左思成,清华大学智能视觉实验室(IVG)博士生

清华大学自动化系智能视觉实验室(IVG)博士生,主要研究方向是计算机视觉和自动驾驶。

第 42 讲

 主 题 

《基于高斯世界模型的流式3D占用预测》

 提 纲 

1、自动驾驶中的时序建模方法

2、基于世界模型的感知任务范式

3、基于高斯世界模型的流式OCC预测

4、在世界模型与端到端自动驾驶上的思考

直 播 信 息 

直播时间:1月13日19:00

成果

论文标题

《GaussianWorld: Gaussian World Model for Streaming 3D Occupancy Prediction》

论文链接

https://arxiv.org/abs/2412.10373

论文链接

https://github.com/zuosc19/GaussianWorld

如何报名

有讲座直播观看需求的朋友,可以添加小助手“陈新”进行报名。已添加过“陈新”的老朋友,可以给“陈新”私信,发送“自动驾驶42”进行报名。对于通过报名的朋友,之后将邀请入群进行观看和交流。

清华开源GaussianWorld:基于高斯世界模型的3D占用预测模型 | 一作左思成博士主讲预告