香港中文大学MMLab在读博士刘吉豪：面向BEV感知与几何理解的视觉骨架预训练｜直播预告

自动驾驶新青年讲座」由智东西公开课企划，致力于邀请全球知名高校、顶尖研究机构以及优秀企业的新青年，主讲在环境感知、精准定位、决策规划、控制执行等自动驾驶关键技术上的最新研究成果和开发实践。

「自动驾驶新青年讲座」目前已完结20讲，错过往期讲座直播的朋友，可以点击文章底部“阅读原文”进行回看！

有兴趣分享的朋友，可以与智东西公开课教研团队进行邮件（class@zhidx.com）联系。

在自动驾驶领域，由于单模态数据的感知存在固有缺陷，基于多模态的融合感知技术已成为了众多自动驾驶企业及团队研究的核心之一。但由于LiDAR容易受极端天气的影响，且与相机相比价格昂贵，因此没有被广泛采用。然而，相机捕捉的2D图像和LiDAR 3D点云特征之间仍存在较大差异，基于多视角相机的3D目标检测依然是一个具有挑战性的问题。

基于自监督、多模态数据的通用预训练方法能够尽可能多的学习到通用先验知识，通过微调实现知识迁移。它能够显著降低下游任务对标注数据的依赖，提高模型在小数据集上的泛化能力。这类方法在2D感知任务上取得了显著进展，但在基于视觉的BEV感知模型方面还尚未获得更多关注。

针对这一问题，香港中文大学多媒体实验室(MMLab)在读博士刘吉豪等研究人员详细对比了现有的预训练算法在基于视觉的BEV感知模型上的表现，提出了一种基于几何增强的图像掩码预测算法GeoMIM，来增强视觉模型的BEV感知和几何理解能力。通过掩码预测将LiDAR所蕴含的丰富几何表征迁移到视觉模型中。经过预训练的视觉模型可广泛应用于各种3D检测、分割等下游任务，并且在不同的数据集间具有可迁移性。GeoMIM算法相关成果的论文收录在 ICCV 2023上。

8月25日10点，「自动驾驶新青年讲座」第21讲邀请到论文一作、香港中文大学在读博士刘吉豪参与，主讲《面向BEV感知与几何理解的视觉骨架预训练》。

讲者

刘吉豪，香港中文大学电子工程系，多媒体实验室(MMLab)在读博士，师从李鸿升教授。主要研究方向为基于自监督、多模态的视觉基础模型预训练。在ICCV、CVPR、ECCV等会议上发表多篇论文，曾获得LFR Challenge第一名，NIST FRVT第一名。

第21讲

主题

《面向BEV感知与几何理解的视觉骨架预训练》

提纲

1、2D感知模型预训练算法及其在BEV感知上的应用
2、利用激光雷达网络的BEV知识蒸馏算法研究
3、面向几何理解下游任务的表征预训练算法GeoMIM
4、结合GeoMIM预训练模型的下游应用

直播信息
直播时间：8月25日10：00
直播地点：智东西公开课知识店铺

成果

论文标题
《Towards Better 3D Knowledge Transfer via Masked Image Modeling forMulti-view 3D Understanding》

论文链接
https://arxiv.org/abs/2303.11325

相关推荐