如何在复杂的3D环境中提升智能体的泛化能力并实现高效学习,是具身智能领域一项重要挑战。为此上海AI Lab联合中国科学技术大学、浙江大学等提出从3D视觉基础模型到空间感知的一系列研究成果,包括用于3D视觉的通用预训练范式PonderV2、验证点云数据对机器人学习及泛化能力重要性的Point Cloud Matters、3D空间感知表征学习框架SPA。这三篇论文成果的第一作者是上海AI Lab与中国科学技术大学联培博士生朱皓怡。

迈向空间感知:从3D视觉到具身智能 | 上海AI Lab与中国科大联培博士生朱皓怡主讲预告

迈向空间感知:从3D视觉到具身智能 | 上海AI Lab与中国科大联培博士生朱皓怡主讲预告

迈向空间感知:从3D视觉到具身智能 | 上海AI Lab与中国科大联培博士生朱皓怡主讲预告

PonderV2是一种用于3D视觉的通用点云预训练框架。该框架以神经渲染作为代理任务,具有深度理解和感知三维真实世界的能力。在预训练方面,具有以下四项核心优势:1)统一的预训练方式;2)同时支持室内外场景3D任务;3)灵活支持多种输入模态;4)同时支持高层级语义和底层重建下游任务。在11项室内外基准的评测中,超越了SOTA的性能。与PonderV2相关的论文成果收录于TPAMI 2025顶刊上。

迈向空间感知:从3D视觉到具身智能 | 上海AI Lab与中国科大联培博士生朱皓怡主讲预告

不同观测空间对机器人学习有重要影响,RGB、RGB-D和点云是三种目前的主流模态。朱皓怡博士等研究人员提出OBSBench基准测试框架,并系统性地评估了三种观测空间在机器人学习任务中的表现,强调了3D空间意识在提升机器人学习性能和泛化能力中的关键作用。通过在17个不同的接触丰富操作任务上使用Point Cloud数据集,证明基于点云的方法在性能上优于RGB和RGB-D方法,并且有助于提升零样本泛化能力。与Point Cloud Matters相关的论文成果收录于NeurIPS 2024顶会上。

迈向空间感知:从3D视觉到具身智能 | 上海AI Lab与中国科大联培博士生朱皓怡主讲预告

3D空间意识在具身表征学习中至关重要。朱皓怡博士等研究人员提出一种全新的3D空间感知表征学习框架SPA。该框架利用大规模多视角图进行可微分神经渲染,增强了传统视觉变换器(ViT)的内在空间理解能力。相关团队还进行了最全面的具身表征学习评估,涵盖了268个任务,涉及8个模拟器和多种策略。实验结果表明,SPA在多项任务中均优于10种现有的最先进表征方法,所需的训练数据更少;且通过一系列真实世界实验,验证了SPA在实际场景中的有效性。

迈向空间感知:从3D视觉到具身智能 | 上海AI Lab与中国科大联培博士生朱皓怡主讲预告

12月27日晚7点,智猩猩邀请到上海AI Lab与中国科学技术大学联培博士生朱皓怡参与「智猩猩具身智能前沿讲座」第18讲,以《迈向空间感知:从3D视觉到具身智能》为主题带来直播讲解。

讲者

朱皓怡,上海AI Lab与中国科学技术大学联培博士生

师从王晓刚教授、欧阳万里教授、和贺通教授。本科就读于上海交通大学人工智能班,期间在卢策吾教授和方浩树博士的指导下开展研究。研究方向包括具身智能、机器人操作与三维视觉,致力于探索人工智能在复杂环境中的学习能力及其在机器人领域的应用。曾在NeurIPS、TPAMI等顶级会议和期刊上发表了多篇高影响力论文,其中MineDojo获NeurIPS 2022杰出论文奖。

第 18 讲

主 题
《迈向空间感知:从3D视觉到具身智能》

 提 纲 

1、空间感知对于具身智能的重要性
2、用于3D视觉的通用预训练范式PonderV2
3、基于点云观测空间增强机器人学习和泛化能力
4、提升机器人3D空间感知能力的表征学习框架SPA
5、总结及展望

 直 播 信 息 
直播时间:12月27日晚7点

成果

论文成果1
标题:
《PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm》
链接:
https://arxiv.org/abs/2310.08586
项目地址:
https://github.com/OpenGVLab/PonderV2
收录情况:TPAMI 2025

论文成果2
标题:
《Point Cloud Matters: Rethinking the Impact of Different Observation Spaces on Robot Learning》
链接:
https://arxiv.org/abs/2402.02500
项目地址:
https://github.com/HaoyiZhu/PointCloudMatters
收录情况:NeurIPS 2024

论文成果3
标题:
《SPA: 3D Spatial-Awareness Enables Effective Embodied Representation》
链接:
https://arxiv.org/abs/2410.08208
项目地址:
https://haoyizhu.github.io/spa/

如何报名

有讲座直播观看需求的朋友,可以添加小助手“莓莓”进行报名。已添加过“莓莓”的老朋友,可以给“莓莓”私信,发送“具身智能18”进行报名。对于通过报名的朋友,之后将邀请入群进行观看和交流。

迈向空间感知:从3D视觉到具身智能 | 上海AI Lab与中国科大联培博士生朱皓怡主讲预告