「AI新青年讲座」将邀请世界顶尖AI研究机构和大学的科研新青年,主讲他们在计算机视觉、机器学习等人工智能领域的最新重要研究成果。
AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑,将可以帮助大家增进对人工智能前沿研究的理解,相应领域的专业知识也能够得以积累加深。同时,通过与AI新青年的直接交流,大家在AI学习和应用AI的过程中遇到的问题,也能够尽快解决。
有兴趣分享学术成果的朋友,可以与智东西公开课教研团队进行邮件(class@zhidx.com)联系。
在自动驾驶中,对周围场景的视觉感知预计将根据多个摄像头提供的2D线索预测3D边框或语义图。最简单的解决方案是基于单目系统和跨摄像头的后处理。该框架的缺点是,需要单独处理不同的视图,无法跨摄像头捕获信息,导致性能和效率低下。
作为单目系统的替代方案,更统一的框架是从多摄像机图像中提取整体表示。BEV是一种常用的周围场景表示法,显示了目标的位置和尺度,并且适用于各种自动驾驶任务,如感知和规划。而目前生成BEV特征的主流BEV框架是基于深度信息,这种模式对深度值或深度分布的准确性很敏感。因此,基于BEV的方法的检测性能会受到混合误差的影响,不准确的BEV特征会严重损害最终性能。
南京大学IMAGINE LAB在读博士李志琦等人提出了一种基于Transformer和时序模型在鸟瞰图视角下优化特征的环视物体检测方案,即BEVFormer。
BEVFormer不依赖深度信息的BEV生成,可以自适应地学习BEV特征,而不是严格依赖3D先验知识。其中Transformer使用注意机制动态聚合有价值的功能,在概念上满足需求。同时,为了解决自动驾驶场景中的目标变化迅速问题,受递归神经网络(RNN)的启发,利用BEV特征反复传递历史时间信息,类似于RNN模型的隐状态。
在nuScenes上的实验结果表明了BEVFormer的有效性。在其他条件完全一致下,使用时序特征的BEVFormer比不使用时序特征的BEVFormer-S 在NDS指标上高7个点以上。尤其是引入时序信息之后,基于纯视觉的模型真正能够预测物体的移动速度,这对于自动驾驶任务来说意义重大。
6月15日,「AI新青年讲座」第126讲邀请到BEVFormer一作、南京大学IMAGINE LAB在读博士李志琦参与,主讲《BEVFormer:基于Transformer的自动驾驶BEV纯视觉感知》。
讲者
李志琦,南京大学IMAGINE LAB在读博士,导师为路通教授;主要研究方向为基于注意力机制的视觉感知,包括全景分割和自动驾驶感知。
第126讲
主 题
《BEVFormer:基于Transformer的自动驾驶BEV纯视觉感知》
提 纲
1、BEV视觉感知的研究背景
2、自动驾驶BEV感知的主流方案
3、BEVFormer利用时空Transformer学习BEV特征
4、在地图分割等下游感知任务中的应用
直 播 信 息
直播时间:6月15日19:00
直播地点:智东西公开课知识店铺
成果
BEVFormer:《BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers》
论文链接:https://arxiv.org/pdf/2203.17270.pdf
开源地址:https://github.com/zhiqi-li/BEVFormer