香港中文大学MMLab在读博士邵昊:LMDrive——大语言模型加持的闭环端到端自动驾驶框架|自动驾驶新青年讲座

「自动驾驶新青年讲座」由智猩猩企划,致力于邀请全球知名高校、顶尖研究机构以及优秀企业的新青年,主讲在环境感知、精准定位、决策规划、控制执行等自动驾驶关键技术上的最新研究成果和开发实践。

「自动驾驶新青年讲座」目前已完结34讲,有兴趣分享的朋友,可以与智猩猩教研团队进行邮件(class@zhidx.com)联系

自动驾驶领域的算法研究和落地应用已经取得了诸多显著进展,但这些近期的工作在遇到长尾事件和复杂城市驾驶场景时,仍存在一系列困难与挑战,甚至可能引发严重的驾驶事故。

更具体来说,以往的自动驾驶方法倾向于依赖有限格式的输入(例如传感器数据和导航点),限制了车辆理解语言信息和与人交互的能力。而大语言模型(LLM)相关的最新研究成果则展现出接近“通用人工智能”的能力,包含一系列令人印象深刻的知识理解和推理能力。因此,如何将二者有效结合就成为了一个值得探索的研究课题。

LMDrive 是香港中文大学、商汤科技,以及上海人工智能实验室(OpenDILab 团队)等机构的研究者们提出的第一个利用大语言模型进行闭环端到端自动驾驶的工作,结合了自然语言指令和多模态传感器数据,实现了复杂驾驶场景中准确且高效的导航和人机交互。

香港中文大学MMLab在读博士邵昊:LMDrive——大语言模型加持的闭环端到端自动驾驶框架|自动驾驶新青年讲座

LMDrive 主要从以下四个方面进行了深入的探索和研究:

1、提出全新的自动驾驶框架 LMDrive:这是一个端到端、闭环、基于语言控制的自动驾驶框架,能够通过多模态多视角传感器数据和自然语言指令与动态环境进行交互。

2、构建了约 64K 数据量的语言引导驾驶数据集:其中每个条目包含一条导航指令、几条提示指令、一系列多模态多视角传感器数据和车辆控制信号。每个数据片段的时长从 2 秒到 20 秒不等。
3、推出 LangAuto 基准测试框架:用于评估以语言指令为导航输入的自动驾驶Agent 性能,涵盖误导性/冗长指令和具有挑战性的对抗性驾驶场景。

4、进行广泛的闭环实验:通过实验验证所提出框架的有效性,并分析 LMDrive 的不同组成部分,为沿此方向的研究提供分析。

1月22日晚7点,「自动驾驶新青年讲座」第35讲邀请到 LMDriver 一作、香港中文大学 MMLab 在读博士邵昊参与,主讲《LMDrive:大语言模型加持的闭环端到端自动驾驶框架》。

讲者
邵昊,香港中文大学MMLab在读博士;师从李鸿升教授和王晓刚教授,研究方向为端到端自动驾驶,多模态大语言模型,视频理解;曾在CVPR、CoRL、NeurIPS、RSS等顶级会议发表多篇论文;曾获2022年度CARLA端到端自动驾驶挑战赛冠军(sensor track),2020年度ActivityNet挑战赛冠军等。

第35讲
主 题
《LMDrive:大语言模型加持的闭环端到端自动驾驶框架》

提 纲
1、端到端闭环自动驾驶概述
2、基于语言控制的端到端闭环自动驾驶框架 LMDrive
3、64K 数据量的语言引导驾驶数据构建
4、基于语言引导的自动驾驶 Agent 性能评估
5、广泛的闭环实验验证及未来研究方向探讨

直 播 信 息
直播时间:1月22日19:00
直播地点:智东西公开课知识店铺

成果
论文标题《LMDrive: Closed-Loop End-to-End Driving with Large Language Models》
论文地址https://arxiv.org/abs/2312.07488
代码链接https://github.com/opendilab/LMDrive