阿里首个具身大模型系列发布！用一个摄像头，让宇树Go2全屋跑腿

机器人前瞻（公众号：robot_pro）
作者 | 程茜
编辑 | 漠影

机器人前瞻6月16日报道，刚刚，阿里发布首个具身大模型Qwen-Robot系列，包含三大模型，这也是千问大模型家族首个完整的具身智能模型系列。

VLN移动模型Qwen-RobotNav：物理智能体行动，通过自适应的视觉分配策略和工具接口，把视觉语言能力接入移动控制，统一了指令跟随、点/目标导航、目标追踪和自动驾驶四类任务。

VLA操作模型Qwen-RobotManip：物理智能体交互，通过规范状态-动作空间和相机坐标系下的末端执行器增量位姿，把视觉语言能力接入操作控制，基于完全由开源数据构建的>38100小时操作数据实现了大规模多机型训练。

世界模型Qwen-RobotWorld：物理智能体的无限世界，通过自然语言动作接口，把视觉语言能力接入世界动力学预测，让同一个世界模型能够跨操作、驾驶和导航场景预测符合物理规律的未来。

阿里首个具身大模型系列发布！用一个摄像头，让宇树Go2全屋跑腿

Qwen-RobotNav在宇树科技四足机器人Go2（NVIDIA Jetson Thor，推理延迟196ms）上零样本部署，仅使用单个低分辨率相机，机器人在一套从未见过的公寓中，就根据逐步的语言指令跨多个房间执行任务。

阿里首个具身大模型系列发布！用一个摄像头，让宇树Go2全屋跑腿

三个模型各自独立可用，但由于它们都提供语言优先的接口，通用Qwen模型可以将它们作为物理世界工具进行组合，将通用智能直接连接到物理行动。

阿里打造了一个内部项目机器人智能体框架Qwen-RobotClaw，让Qwen VLM智能体将Qwen-Robot Suite模型作为物理世界工具调用，同时管理长程任务所需的上下文与记忆，推动物理智能走向更通用、更复杂的真实应用场景。

研究人员已经将这种开放世界探索能力部署到真实环境中，后续将发布更多技术细节。例如用户要求智能体在真实建筑中找到一个可用的卫生间，智能体首先扫描周围环境，沿走廊线索寻找卫生间标识，发现“暂停使用”标牌判断该卫生间不可用，随即重新规划路线前往建筑另一侧寻找，直到找到可用卫生间。

阿里首个具身大模型系列发布！用一个摄像头，让宇树Go2全屋跑腿

此外，阿里还开放了具身智能评测平台Chat2Robot，用户可以在浏览器中与机器人对话，即可观察机器人的实时响应。Chat2Robot目前仅支持Qwen-RobotManip，且部署策略仅使用RoboTwin-Clean数据集进行训练，该数据集仅包含50个任务。

Chat2Robot体验地址：

https://qwen-robotmanip.d-robotics.cc/?spm=a2ty_o06.30285417.0.0.79f7c921DFswuC

一、Qwen-RobotNav：1560万条数据训练，未见过展馆也能精准导航

智能体要操作任何物体，需要能到达目标位置，但不同导航任务对历史信息的需求差异大，指令跟随需要保留长程上下文，目标追踪则几乎只关注最近几帧，任何固定的视觉分配策略都无法同时满足这两类需求。

基于此，Qwen-RobotNav将视觉分配策略本身参数化，根据任务模式选择导航行为、通过可调节参数决定视觉历史的编码方式。该模型的训练样本包含1560万条，同时联合视觉语言数据以保留感知能力，一套权重统一五类导航任务。

阿里首个具身大模型系列发布！用一个摄像头，让宇树Go2全屋跑腿

指令跟随方面，在一个从未见过的展览馆中评估往返导航任务：机器人首先根据语言指令从客厅导航21.78米至病房，随后接收反向指令，要求精确地沿原路返回。这一任务中，模型需要在长距离中保持空间感知，在正向和反向两个方向上识别多样的视觉地标，并仅凭语言实现双向位置控制。

阿里首个具身大模型系列发布！用一个摄像头，让宇树Go2全屋跑腿

Qwen-RobotNav包含四大核心亮点：

统一多域导航：单一模型、单组权重，在5个导航领域实现8项SOTA，包含目标搜索、跟踪率等测试。

阿里首个具身大模型系列发布！用一个摄像头，让宇树Go2全屋跑腿

可控观测协议：视觉词元预算、时间衰减、逐相机权重、帧采样模式四个控制轴作为推理时参数暴露，训练时逐样本随机化，无需重新训练或修改Qwen3-VL架构即可适配任意配置

智能体导航系统：作为双层系统中可重配置的导航原语，Qwen3.6-Plus作为上层规划器分解长时序目标并调度可配置的导航调用，配合双层记忆机制，在EXPRESS-Bench上提升15.4%，导航步数减少77%。

开放环境泛化：在宇树科技四足机器人Go2上零样本部署，机器人能逐步的语言指令跨多个房间执行任务。

在跨本体迁移方面，其单套模型权重同时服务于腿式机器人导航与自动驾驶，在NAVSIM闭环驾驶测试中，Qwen-RobotNav-4B达到91.4 PDMS。

阿里首个具身大模型系列发布！用一个摄像头，让宇树Go2全屋跑腿

二、Qwen-RobotManip：仅用单一通用策略，可跨场景、跨任务执行操作

物理智能体与真实世界交互需要通过机械臂等完成操作任务，但机械臂在不同场景的关节配置和动作空间有很大区别，核心挑战在于让形态各异的机器人在表示层面实现兼容，使跨机器人、跨数据源的大规模训练产生协同效应而非相互冲突。

在此基础上，Qwen-RobotManip以Qwen3.5-4B VL为骨干、结合流匹配DiT动作头，通过三种机制解决这一问题。

其统一的80维状态-动作表示在单臂、双臂、灵巧手和移动平台等本体间共享，相机坐标系下的末端执行器增量位姿动作，使视觉上相似的运动在不同机器人之间数值上也相近，从而屏蔽形态差异，上下文策略自适应将执行历史视为隐式的本体标识，实现推理时在线行为校准。

研究人员利用开源的11320小时机器人数据、开源的1933小时第一人称人类视频，以及人-机迁移数据合成管线从人类视频合成的跨15个本体的24808小时机器人数据，共计超38100小时数据训练模型。

阿里首个具身大模型系列发布！用一个摄像头，让宇树Go2全屋跑腿

Qwen-RobotManip能通过单一通用策略处理跨多类物体、任务和场景的复杂操作：

阿里首个具身大模型系列发布！用一个摄像头，让宇树Go2全屋跑腿

其还可以在真实环境和仿真中执行多样化的未见指令，如下图所示第一排为真实环境、第二排为仿真环境：

阿里首个具身大模型系列发布！用一个摄像头，让宇树Go2全屋跑腿

此外，在其他本体上训练的任务可零样本迁移至新本体执行（第一排），并通过少量示教快速适应全新任务（第二排）：

阿里首个具身大模型系列发布！用一个摄像头，让宇树Go2全屋跑腿

Qwen-RobotManip的核心亮点包括：

统一跨本体对齐框架：统一的80维状态-动作表示兼容多样化本体，相机坐标系末端执行器增量位姿使视觉相似运动数值相近，上下文策略自适应将执行历史作为隐式本体标识，三者共同实现跨本体一致信号提取；

大规模人-机迁移数据合成：管线将1933小时第一人称人类视频，经由动作重定向、手部去除与补绘、仿真渲染及深度辅助融合，转化为跨15个本体的24808小时机器人演示，配合多阶段数据策划管线确保数据质量；

分布外泛化：该模型在多个基准测试中超越π0.5，证实了语言条件控制能力；RoboTwin-XE零样本跨本体迁移性能达到先前最优的3倍；

真实环境表现：RoboChallenge Table30 v1通用赛道以45% SR排名第一，包揽冠亚，领先季军20%；在真实机器人平台上的域内与域外任务、少样本适应及跨本体技能迁移中达到先前最优的2倍。

基于此，研究人员发现，对齐是规模化的前提。只有具备统一跨本体表示的模型（UnifiedSpace+ UnifiedEEF）才能展现出稳定的对数线性数据规模化曲线，没有对齐，增加更多数据只会产生抖动或持平的曲线，规模化无法弥补未对齐表征框架的固有缺陷。

阿里首个具身大模型系列发布！用一个摄像头，让宇树Go2全屋跑腿

三、Qwen-RobotWorld：解决真实世界数据稀缺难题，能跨本体生成机器人操作效果

面对机器人稀缺的真实世界经验，Qwen-RobotWorld通过直接学习世界的状态转移函数来解决这一问题：给定当前观测和一个自然语言动作，预测世界接下来将呈现的样子。

关键设计是将所有动作以自然语言表达，这将末端执行器位姿、转向指令和导航路标点统一为单一接口，使20余种本体类型和500余个动作类别得以在具身世界知识语料库（860万视频-文本对，逾2亿帧）下协同训练，60层双流MMDiT将Qwen2.5-VL的语义表示与视频隐变量深度耦合。

其还将完整的多模态大语言模型作为动作编码器，其带来内化的世界知识，如手臂是刚体、液体会扩散、物体会下落。最后每个领域相互强化：操作教会接触物理，驾驶教会大尺度三维几何，导航教会房间级别的空间推理。

阿里首个具身大模型系列发布！用一个摄像头，让宇树Go2全屋跑腿

给定人类演示，Qwen-RobotWorld能够跨多种本体生成真实的机器人执行效果，无需遥操作：

阿里首个具身大模型系列发布！用一个摄像头，让宇树Go2全屋跑腿

此外在自动驾驶与室内导航场景，驾驶教会模型大尺度三维几何与多智能体动力学，导航教会房间级别的空间推理，每个领域相互强化。

阿里首个具身大模型系列发布！用一个摄像头，让宇树Go2全屋跑腿

Qwen-RobotWorld的核心亮点在于：

语言驱动的统一动作接口：自然语言将20余种机器人本体和500余个动作类别标准化为统一的训练接口，使操作、驾驶、导航和人机迁移得以联合训练，每个领域互相强化；

双流MMDiT+Qwen2.5-VL动作编码器：以完整的多模态大语言模型作为动作编码器，将复杂的组合指令解析为精确的生成信号，并内化物理世界知识，可作为合成数据引擎、闭环策略评估器和动作规划器；

榜单排名：EWMBench总分第一及DreamGen Bench第一；开源模型中WorldModelBench第一，能遵循牛顿定律、质量守恒、流体动力学等物理规律，及PBBench第一。

核心能力：细粒度语言控制，改变单个关键词即产生不同的未来；跨8种以上本体的人机迁移，具备多视角一致生成；在RoboTwin-IF上的零样本鲁棒性。

结语：破解长程任务、人机交互行业瓶颈，阿里迈出关键一步

物理世界智能仍处于起步阶段，涉及复杂接触的长程任务、终身学习、通用规划器与物理执行器的深度融合、以及更丰富的人-机-环境交互，都仍是开放问题。但阿里研究人员在技术博客中提到，他们从强大的多模态理解出发，将视觉语言表示空间桥接至每一类物理行动，扩大训练规模，进一步提升泛化能力。

其博客中透露，他们的目标是一个能够去往任何地方、做任何事情，并预见行动后果的物理智能体，Qwen-Robot Suite就是其迈出的第一步。

一、Qwen-RobotNav：1560万条数据训练，未见过展馆也能精准导航

二、Qwen-RobotManip：仅用单一通用策略，可跨场景、跨任务执行操作

三、Qwen-RobotWorld：解决真实世界数据稀缺难题，能跨本体生成机器人操作效果

结语：破解长程任务、人机交互行业瓶颈，阿里迈出关键一步

相关推荐