机器人前瞻(公众号:robot_pro)
作者 |  许丽思
编辑 |  漠影

机器人前瞻8月11日报道,近日,由北京人形机器人创新中心(国地共建具身智能机器人创新中心,以下简称“北京人形”)主办的“具身智能技术与应用论坛”在2025世界机器人大会(WRC)期间举行,现场发布了多项具身智能核心成果,北京人形还与多家企业、机构达成战略合作,共同推进具身智能技术在实际场景中的深度落地。

好用的人形机器人,不仅要具备稳定可靠的行动能力,更要在真实场景中实现感知、决策、控制与迭代优化的全链路协同。这一目标的前提,是同时突破认知理解、通用适配、执行控制与数据供给等核心环节。为此,北京人形在论坛现场正式发布了四项具身智能核心成果:

1、具身世界模型体系

这一体系包含具备物理时空理解与推理能力的72B具身多模态大模型,以及实现神经网络驱动世界模拟器的具身智能世界基座模型。

针对通用大模型具身场景下精细空间/几何理解不足,物理交互误差大等问题,北京人形基于千问72B多模态大模型,通过自研数据清洗与混合模态训练框架,实现行业首个长视频理解72B具身多模态大模型PelicanVLM,在现代多模态系统超长视频语言理解评测集Egoschema、李飞飞的视觉空间智能基准评测集VSI-Bench,多模态大模型物理推理能力大规模基准测试集PhyX等6项具身相关公开评测集上超越GPT-4o、Gemini flash 2.0以及原模型,7个公开评测基准平均性能超过SOTA 11%。

基于超过5000小时视频数据训练的具身世界模型WU,则为具身智能机器人提供了“看见未来”的眼睛,并以未见场景下的泛化能力,解锁具身无限数据的可能性。

2、跨本体VLA模型

北京人形发布跨本体VLA模型XR-1,让同一模型实现跨本体运行、多场景适配、多技能调用。

在业界验证的 RoboMIND 高质量具身数据基础上,XR-1 通过积累超百万量级的自有多本体数据,采用首创的多模态视动统一表征学习,有效利用各类机器人操作数据和海量互联网视频数据。

在此基础上,XR-1 利用多模态视动统一表征训练、跨本体主网络训练和特定场景微调三阶段训练范式,实现机器人跨本体的通用操作知识积累和特定场景的多任务快速学习。在多种机器人本体上大量真实环境测试,实证了该方法的多本体、多技能、多任务、稳健泛化能力,以及其在快速掌握新技能上的巨大潜力。

以 XR-1 为基础,“慧思开物”能够快速构建面向各类场景任务的通用技能库,实现多本体、多场景、多任务的能力,显著减少具身智能应用开发的成本与用时。

3、人形机器人全身控制自主导航系统

该通用移动控制系统聚焦机器人在实际工作中的核心能力,由“自主导航系统”“全身控制系统”组成。

自主导航系统具备点对点导航、动态障碍感知和自主避障能力,并搭载OCC环视感知模块,实现对环境的实时占用与语义感知,拓展了自主与语义导航的应用空间。全身控制系统支持机器人在移动和站立状态下灵活进行上身动作控制,涵盖预设动作、遥操作与自主操作开发。通过稳定的质心控制与精准的末端控制,保障操作任务的稳定高效执行。

两大系统协同解决机器人在移动与操作中的关键技术难题,赋能开发者实现自主任务规划与执行,助力人形机器人迈向真正的生产应用。

4、千台机器人真实场景数据采集计划

这是业内首个千台级规模的真实场景数据采集计划,通过搭建远程遥操作中心,让千台机器人走出实验室,深入工厂车间、物流仓储、酒店商超等真实工业场景,在执行实际作业任务的同时,持续采集多模态交互数据。

与实验室场景不同,真实场景的环境变化、人为扰动、突发状况等因素,为具身智能模型提供了更加丰富、真实的训练素材。这种”边作业、边采集”的创新模式,不仅解决了具身智能发展面临的高质量数据稀缺难题,更构建起规模化数据飞轮,加速模型迭代优化,推动整个行业向”数据富集”跨越,为具身智能产业化落地奠定数据基础。

论坛现场,北京人形与百度智能云、中国电力科学院、奇安信集团、李宁公司、领益智造、特天集团、哈森股份、三维天地、浪潮智慧能源等核心机构和企业代表举行现场签约仪式,正式达成战略合作。各方将围绕协同创新与行业应用,推进具身智能技术在实际场景中的深度落地,共同打造开放共赢的产业生态。

与此同时,北京人形联合京沣科技设计仿真训练平台发布,针对当前行业普遍面临的仿真数据标准缺失问题,提供覆盖多场景、高精度、高复现能力的专业训练环境,进一步完善具身智能从“训练—部署—验证”的系统能力,赋能开发者与企业快速实现真实落地。