近年来,大语言模型和多模态大模型在扩展定律(Scaling laws)方面的探索已经取得了重要进展,但当前AI技术最终能够赋能真实物理世界并从中持续学习优化还需要引入与物理世界的交互,即探索具身智能。与通用的感知模型不同,具身智能聚焦于第一视角感知、多模态理解和物理世界交互,而相关研究仍受限于数据的相对匮乏。

为此,上海人工智能实验室研究员王泰博士及相关研究人员构建了面向具身智能的多模态三维感知与交互的大规模数据和基准,覆盖了真实场景和仿真可交互场景,以扩展当前具身智能研究的数据和模型规模,旨在实现具身多模态三维感知的通用基础模型,并进一步赋能下游交互任务,探索通往通用具身智能的可行路径。

具体来说,王泰博士及相关研究人员提出了首个具身多模态三维感知基准EmbodiedScan,和3D点云多模态大语言模型PointLLM;在下游交互任务中,王泰博士及相关研究人员又提出首个大语言模型驱动的统一人景交互框架UniHSI,城市级具身智能数字训练场桃源GRUtopia。与EmbodiedScan、PointLLM、UniHSI相关的论文分别收录于 CVPR 2024、ECCV 2024 (满分评审)、ICLR 2024 (Spotlight) 。

上海 AI Lab多篇顶会成果!涉及ECCV 2024 满分评审、机器人版「斯坦福小镇」桃源 | 讲座预告

EmbodiedScan是一个具身多模态三维感知基准。它包括了5k次以上的扫描,封装了1M个以自我为中心的RGB-D视图、1M个语言提示、跨越760多个类别、160k个面向3D的边框,还有80个常见类别的密集语义占用格。在这个数据库的基础上,又引入了一个名为Embedded Perceptron的基线框架。它能够处理任意数量的多模态输入,并在基础3D感知任务和语言落地的任务,以及“在野外采集的”数据,都表现出了非凡的3D感知能力。

上海 AI Lab多篇顶会成果!涉及ECCV 2024 满分评审、机器人版「斯坦福小镇」桃源 | 讲座预告

大型语言模型 (LLM) 的进步对自然语言处理产生了深远的影响,但尚未完全拥抱3D理解领域。为此上海人工智能实验室联合香港中文大学等提出了PointLLM,让LLMs学会理解点云信息并提供超越2D视觉数据的新途径。

上海 AI Lab多篇顶会成果!涉及ECCV 2024 满分评审、机器人版「斯坦福小镇」桃源 | 讲座预告

PointLLM能够根据Prompt处理彩色点云信息,利用LLM的点云编码器来有效融合几何、外观和语言信息,生成符合任务目标的响应。实验结果表明,PointLLM 表现出优于现有2D基线的性能,在对象标注任务中,PointLLM在超过50%的样本中优于人工注释者。

人景交互在包括具身智能和虚拟现实等领域中都起着十分重要的作用。由于真实人形机器人的发展尚处于起步阶段,过去的工作主要集中在虚拟环境的交互。为此上海人工智能实验室联合NTU S-Lab、CMU提出首个大语言模型驱动的统一人景交互框架——UniHSI。

上海 AI Lab多篇顶会成果!涉及ECCV 2024 满分评审、机器人版「斯坦福小镇」桃源 | 讲座预告

在具身自主探索方面,上海人工智能实验室发布了城市级具身智能仿真平台“浦源·桃源”GRUtopia。“浦源·桃源“被业界称为是专为具身智能研究打造的机器人版「斯坦福小镇」。

上海 AI Lab多篇顶会成果!涉及ECCV 2024 满分评审、机器人版「斯坦福小镇」桃源 | 讲座预告

作为大模型与机器人的连接层,”浦源·桃源“涵盖了89种功能性场景、10万+高质量可交互数据,构建了“软硬虚实”一体的机器人训练场,有望解决领域内数据匮乏、评测困难的问题。”浦源·桃源“主要包括三部分:

1、场景数据集 GRScenes。包含 10 万个交互式、精细注释的场景,可自由组合成城市规模的环境。GRScenes 涵盖的89 种不同场景类别,弥补了服务型环境的空白。

2、GRResidents。这是一个大型语言模型(LLM)驱动的非玩家角色(NPC)系统,负责社交互动、任务生成和任务分配,从而模拟具身 AI 应用的社交场景。

3、基准 GRBench。支持各种机器人,但侧重于作为主要智能体的有腿机器人,并提出了涉及物体定位导航、社交定位导航和定位操纵的中等难度任务。

上海 AI Lab多篇顶会成果!涉及ECCV 2024 满分评审、机器人版「斯坦福小镇」桃源 | 讲座预告

8月1日晚7点,智猩猩邀请到上海人工智能实验室研究员王泰博士参与「智猩猩机器人新青年讲座」第11讲,主讲《三维场景中的具身多模态感知与交互》。

讲者

王泰,上海人工智能实验室研究员

博士毕业于香港中文大学MMLab,研究方向为具身智能和三维视觉。过往工作有二十余篇论文在顶级会议和期刊上发表,谷歌学术引用2400余次,多篇被选中做口头报告或获得满分评审,并在国际顶级竞赛中获奖。代表工作FCOS3D, Cylinder3D, DfM, EmbodiedScan, GRUtopia, PointLLM 等及相关开源工作如MMDetection3D在通用三维感知和具身多模态感知交互等领域的学界和业界有广泛影响。曾获ICCV研讨会最佳论文、港府奖学金、浙大竺可桢奖学金等荣誉。

第11讲

主 题

《三维场景中的具身多模态感知与交互》

提 纲

1. 具身智能研究背景概述
2. 大规模具身多模态三维感知
– 具身多模态三维感知基准
– 三维多模态大模型初探
3. 大规模具身交互
– 首个大语言模型驱动的统一人景交互框架UniHSI
– 城市级具身智能数字训练场:桃源GRUtopia
4. 总结及展望

直 播 信 息

直播时间:8月1日19:00
直播地点:智猩猩GenAI视频号

成果

论文标题

《EmbodiedScan: A Holistic Multi-Modal 3D Perception Suite Towards Embodied AI》

《PointLLM: Empowering Large Language Models to Understand Point Clouds》

《Unified Human-Scene Interaction via Prompted Chain-of-Contacts》

《GRUtopia: Dream General Robots in a City at Scale》

论文链接

https://arxiv.org/abs/2312.16170

https://arxiv.org/abs/2308.16911

https://arxiv.org/abs/2309.07918

https://arxiv.org/abs/2407.10943

项目地址

https://github.com/OpenRobotLab/EmbodiedScan

https://github.com/OpenRobotLab/PointLLM

https://github.com/OpenRobotLab/GRUtopia

入群申请

针对本次讲座,也组建了学习群,讲者将会加入交流。希望入群学习和交流的朋友,可以扫描下方二维码,添加小助手莓莓进行报名。已添加过莓莓的老朋友,可以给莓莓私信,发送“机器人讲座11”申请入群。

上海 AI Lab多篇顶会成果!涉及ECCV 2024 满分评审、机器人版「斯坦福小镇」桃源 | 讲座预告