释放端到端自动驾驶泛化性！理想汽车联合西湖大学提出多视角长视频生成方法Delphi

「自动驾驶新青年讲座」由智猩猩企划，致力于邀请全球知名高校、顶尖研究机构以及优秀企业的新青年，主讲在环境感知、精准定位、决策规划、控制执行等自动驾驶关键技术上的最新研究成果和开发实践。

使用生成模型来合成新数据已成为自动驾驶领域解决数据稀缺问题的重要途径。然而现有方法虽能够提升感知模型的性能，但却未能改善端到端自动驾驶模型的规划性能，因为生成的视频通常少于8帧，且存在空间和时间的一致性的问题。

为此，理想汽车智驾团队联合西湖大学等提出了一种基于扩散模型的可控长视频生成的方法Delphi。与Delphi相关的论文目前正处于NeurIPS 2024的投稿阶段。其中，西湖大学助理教授于开丞老师为通讯作者，西湖大学和浙江大学联培博士、理想汽车实习研究员马恩慧为论文一作。

释放端到端自动驾驶泛化性！理想汽车联合西湖大学提出多视角长视频生成方法Delphi | 讲座预告

多视角长视频生成方法Delphi主要包括以下两个模块来提升一致性：1）具有跨多视图的共享噪声建模机制以增加空间一致性；2）特征对齐交互模块以实现精确的可控性和时间一致性。该方法能够生成多达40帧的视频而不失去一致性，约为现有最先进方法的5倍。

此外，该团队进一步设计了failure case驱动的框架来高效进行数据增强。通过多轮问询策略，结合VLM分析失败原因；利用定向多样化生成策略，结合使用Delphi的可控生成能力，定向生成与failure case相关的场景。

释放端到端自动驾驶泛化性！理想汽车联合西湖大学提出多视角长视频生成方法Delphi | 讲座预告

实验表明，Delphi生成的长视频质量更高，超越了现有最先进的方法。该方法通过仅生成训练集大小的4%数据，将碰撞率从0.33降低到0.27，改善了自动驾驶模型的感知和预测能力，并将端到端自动驾驶模型的规划性能提升了25%。

8月23日晚7点，智猩猩邀请到论文一作、西湖大学和浙江大学联培博士、理想汽车实习研究员马恩慧参与「智猩猩自动驾驶新青年讲座」第38讲，主讲《利用长视频生成模型释放端到端自动驾驶泛化性》。

讲者

马恩慧
西湖大学和浙江大学联培博士、理想汽车实习研究员

马恩慧博士目前是西湖大学和浙江大学联培项目的一年级博士生，硕士毕业于天津大学智算学部。她的研究方向包括可控视频生成，三维场景理解等，曾在ICCV学术会议上发表研究成果。

第 38 讲

主题

《利用长视频生成模型释放端到端自动驾驶泛化性》

提纲

1、利用合成数据训练端到端自动驾驶模型存在的问题

2、基于扩散模型的多视角长视频生成方法Delphi

3、利用failure-case驱动框架增强端到端模型泛化能力

4、nuScenes数据集上的实验结果及Demo演示

直播信息

直播时间：8月23日19:00

直播地点：智猩猩GenAI视频号

成果

论文标题

《Unleashing Generalization of End-to-End AutonomousDriving with Controllable Long Video Generation》

论文链接

https://arxiv.org/abs/2406.01349

项目地址

https://westlake-autolab.github.io/delphi.github.io/

直播预约

本次讲座将在智猩猩GenAI视频号进行直播，欢迎预约~

入群申请

本次讲座组建了学习交流群。加入学习交流群，除了可以观看直播，并提前拿到课件外，你还能结识更多研究人员和开发者，所提问题也将会优先解答。

希望入群的朋友可以扫描下方二维码，添加小助手陈新进行申请。已添加过陈新的老朋友，可以给陈新私信，发送“自动驾驶38”进行申请。

释放端到端自动驾驶泛化性！理想汽车联合西湖大学提出多视角长视频生成方法Delphi | 讲座预告