南大在读博士李志琦：BEVFormer——基于Transformer的自动驾驶BEV纯视觉感知

「AI新青年讲座」将邀请世界顶尖AI研究机构和大学的科研新青年，主讲他们在计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑，将可以帮助大家增进对人工智能前沿研究的理解，相应领域的专业知识也能够得以积累加深。同时，通过与AI新青年的直接交流，大家在AI学习和应用AI的过程中遇到的问题，也能够尽快解决。

有兴趣分享学术成果的朋友，可以与智东西公开课教研团队进行邮件（class@zhidx.com）联系。

在自动驾驶中，对周围场景的视觉感知预计将根据多个摄像头提供的2D线索预测3D边框或语义图。最简单的解决方案是基于单目系统和跨摄像头的后处理。该框架的缺点是，需要单独处理不同的视图，无法跨摄像头捕获信息，导致性能和效率低下。

作为单目系统的替代方案，更统一的框架是从多摄像机图像中提取整体表示。BEV是一种常用的周围场景表示法，显示了目标的位置和尺度，并且适用于各种自动驾驶任务，如感知和规划。而目前生成BEV特征的主流BEV框架是基于深度信息，这种模式对深度值或深度分布的准确性很敏感。因此，基于BEV的方法的检测性能会受到混合误差的影响，不准确的BEV特征会严重损害最终性能。

南京大学IMAGINE LAB在读博士李志琦等人提出了一种基于Transformer和时序模型在鸟瞰图视角下优化特征的环视物体检测方案，即BEVFormer。

BEVFormer不依赖深度信息的BEV生成，可以自适应地学习BEV特征，而不是严格依赖3D先验知识。其中Transformer使用注意机制动态聚合有价值的功能，在概念上满足需求。同时，为了解决自动驾驶场景中的目标变化迅速问题，受递归神经网络（RNN）的启发，利用BEV特征反复传递历史时间信息，类似于RNN模型的隐状态。

在nuScenes上的实验结果表明了BEVFormer的有效性。在其他条件完全一致下，使用时序特征的BEVFormer比不使用时序特征的BEVFormer-S 在NDS指标上高7个点以上。尤其是引入时序信息之后，基于纯视觉的模型真正能够预测物体的移动速度，这对于自动驾驶任务来说意义重大。

6月15日，「AI新青年讲座」第126讲邀请到BEVFormer一作、南京大学IMAGINE LAB在读博士李志琦参与，主讲《BEVFormer：基于Transformer的自动驾驶BEV纯视觉感知》。

讲者
李志琦，南京大学IMAGINE LAB在读博士，导师为路通教授；主要研究方向为基于注意力机制的视觉感知，包括全景分割和自动驾驶感知。

第126讲

主题
《BEVFormer：基于Transformer的自动驾驶BEV纯视觉感知》

提纲
1、BEV视觉感知的研究背景
2、自动驾驶BEV感知的主流方案
3、BEVFormer利用时空Transformer学习BEV特征
4、在地图分割等下游感知任务中的应用

直播信息
直播时间：6月15日19:00
直播地点：智东西公开课知识店铺

成果
BEVFormer：《BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers》
论文链接：https://arxiv.org/pdf/2203.17270.pdf
开源地址：https://github.com/zhiqi-li/BEVFormer

相关推荐