大模型的火已经“烧到了”自动驾驶领域!7 月吉利预告了大模型技术,8 月广汽推出了“广汽 AI 大模型平台”……而在此之前,小鹏、理想、特斯拉也都宣称自己拥有了“自动化数据闭环系统”来作为大模型的一种应用方向。显然,大模型在自动驾驶的落地已经在加速了,同样也将会迎来新的挑战。
比如,在自动驾驶的感知部分,相机可以提供道路和障碍物的图像信息,激光雷达可以提供距离和深度信息,而毫米波雷达可以提供速度和方向信息。在这个过程中,往往需要融合多传感器的输入数据从而实现融合增强,并且当传感器的检测结果冲突时,选择更加相信哪一方的结果也是一大难题。而大模型的一大优势是可以处理不同类型的数据之间的关系,并且可以很好的将这些不同类型的数据融合在一起,更全面和准确地理解驾驶环境。
那么,大模型在自动驾驶实际应用过程中到底需要解决哪些关键问题?又如何构建自动驾驶领域的专属大模型呢?9月11日晚7点,智东西公开课教研组推出「大模型时代的自动驾驶3D场景理解在线研讨会」。本次研讨会由上海科技大学信息学院助理教授马月昕博士参与出品。马月昕博士 2019 年于香港大学计算机科学系获得博士学位,目前主要研究方向为场景理解、多模态学习、自动驾驶、人机协作等,在 Science Robotics、TPAMI、CVPR、ECCV、IJCV、AAAI、IJCAI、SIGGRAPH 等顶刊与顶会上发表文章二十几篇。
本次研讨会,马月昕博士本人将以《大规模场景3D视觉基础模型的构建挑战》为主题进行分享,同时也邀请了上海人工智能实验室青年研究员侯跃南和香港大学博士后研究员陈润楠参与主讲,他们将分别围绕主题《大模型时代自动驾驶技术研究与应用探索》、《大模型时代零样本3D场景理解的探索》进行深度讲解。

出品人
马月昕,上海科技大学信息学院助理教授、博导 ;成立 4DV Lab;2019 年于香港大学计算机科学系获得博士学位;研究领域为计算机视觉,人工智能,课题组的研究方向主要有大规模三维场景理解、多模态感知与重建;在 Science Robotics、TPAMI、CVPR、ECCV、IJCV、AAAI、IJCAI、SIGGRAPH 等顶刊与顶会上发表文章二十几篇;荣获上海市领军人才(海外)称号,主持和参与多项国家自然科学基金项目、上海市科委基金项目。
主题介绍
上海人工智能实验室青年研究员侯跃南:大模型时代自动驾驶技术研究与应用探索大模型已经在自然语言处理和计算机视觉等众多领域取得了惊艳的效果,如 GPT-4、ChatGPT、LLaMA、PaLM、Flamingo、SAM、FastSAM 等。
本次分享则围绕在大模型背景下,自动驾驶领域中的技术研究和探索进行讲解。我们将从自动驾驶领域的关键问题出发,从数据采集和处理、模型的多任务统一框架设计、模型预训练、下游任务适配和迁移等多个方面,详细地阐述大模型在自动驾驶领域应用过程中需要解决哪些关键问题并提出一些基本的处理思路。
香港大学博士后研究员陈润楠:大模型时代零样本 3D 场景理解的探索
零样本(开放词汇)3D场景理解是一个涉及计算机视觉和自然语言处理领域的研究课题。背后的思想是模仿人类的智能,即使没有先前经验,人类也能够理解新的场景和物体。研究目的是让计算机系统能够理解从未见过的,未经标注的三维场景中的物体。
本次分享将介绍我们在零样本3D场景理解领域的一系列工作,包括从如何利用3D几何基元、多模态信息,和大模型CLIP、SAM等来探索零样本3D场景理解。
上海科技大学信息学院助理教授马月昕:大规模场景3D视觉基础模型的构建挑战
近年来,自然语言处理(NLP)和二维视觉基础模型的最新进展推动了人工智能的发展达到了新的高度。然而,由于获取和注释 3D 数据的成本高昂,构建 3D 视觉基础模型具有挑战性。为了解决这个问题,我们从两个角度来解决这个问题。
(1)我们开发了针对 3D 场景的无标签学习算法。 这些算法在无监督学习、领域适应和开放词汇(零样本)学习任务中表现出色。
(2)我们专注于以人为主的场景细粒度理解。我们提出了几个大规模数据集,涵盖密集人群、人与物体交互、人体运动和步态,解决了大规模场景中以人为中心的带注释 3D 数据的稀缺问题。
此外,我们还为检测、分割、行为识别、姿势估计、动作捕捉、步态识别等创建了基准算法。这些工作对于在自动驾驶、服务机器人和人机协作等应用方面构建 3D 视觉基础模型具有重要意义。