机器人前瞻(公众号:robot_pro)
作者 |  程茜
编辑 |  漠影

机器人前瞻6月16日报道,刚刚,阿里发布首个具身大模型Qwen-Robot系列,包含三大模型,这也是千问大模型家族首个完整的具身智能模型系列。

VLN移动模型Qwen-RobotNav:物理智能体行动,通过自适应的视觉分配策略和工具接口,把视觉语言能力接入移动控制,统一了指令跟随、点/目标导航、目标追踪和自动驾驶四类任务。

VLA操作模型Qwen-RobotManip:物理智能体交互,通过规范状态-动作空间和相机坐标系下的末端执行器增量位姿,把视觉语言能力接入操作控制,基于完全由开源数据构建的>38100小时操作数据实现了大规模多机型训练。

世界模型Qwen-RobotWorld:物理智能体的无限世界,通过自然语言动作接口,把视觉语言能力接入世界动力学预测,让同一个世界模型能够跨操作、驾驶和导航场景预测符合物理规律的未来。

阿里首个具身大模型系列发布!用一个摄像头,让宇树Go2全屋跑腿

Qwen-RobotNav在宇树科技四足机器人Go2(NVIDIA Jetson Thor,推理延迟196ms)上零样本部署,仅使用单个低分辨率相机,机器人在一套从未见过的公寓中,就根据逐步的语言指令跨多个房间执行任务。

阿里首个具身大模型系列发布!用一个摄像头,让宇树Go2全屋跑腿

三个模型各自独立可用,但由于它们都提供语言优先的接口,通用Qwen模型可以将它们作为物理世界工具进行组合,将通用智能直接连接到物理行动

阿里打造了一个内部项目机器人智能体框架Qwen-RobotClaw,让Qwen VLM智能体将Qwen-Robot Suite模型作为物理世界工具调用,同时管理长程任务所需的上下文与记忆,推动物理智能走向更通用、更复杂的真实应用场景。

研究人员已经将这种开放世界探索能力部署到真实环境中,后续将发布更多技术细节。例如用户要求智能体在真实建筑中找到一个可用的卫生间,智能体首先扫描周围环境,沿走廊线索寻找卫生间标识,发现“暂停使用”标牌判断该卫生间不可用,随即重新规划路线前往建筑另一侧寻找,直到找到可用卫生间。

阿里首个具身大模型系列发布!用一个摄像头,让宇树Go2全屋跑腿

此外,阿里还开放了具身智能评测平台Chat2Robot,用户可以在浏览器中与机器人对话,即可观察机器人的实时响应。Chat2Robot目前仅支持Qwen-RobotManip,且部署策略仅使用RoboTwin-Clean数据集进行训练,该数据集仅包含50个任务。

Chat2Robot体验地址:

https://qwen-robotmanip.d-robotics.cc/?spm=a2ty_o06.30285417.0.0.79f7c921DFswuC

一、Qwen-RobotNav:1560万条数据训练,未见过展馆也能精准导航

智能体要操作任何物体,需要能到达目标位置,但不同导航任务对历史信息的需求差异大,指令跟随需要保留长程上下文,目标追踪则几乎只关注最近几帧,任何固定的视觉分配策略都无法同时满足这两类需求。

基于此,Qwen-RobotNav将视觉分配策略本身参数化,根据任务模式选择导航行为、通过可调节参数决定视觉历史的编码方式。该模型的训练样本包含1560万条,同时联合视觉语言数据以保留感知能力,一套权重统一五类导航任务。

阿里首个具身大模型系列发布!用一个摄像头,让宇树Go2全屋跑腿

指令跟随方面,在一个从未见过的展览馆中评估往返导航任务:机器人首先根据语言指令从客厅导航21.78米至病房,随后接收反向指令,要求精确地沿原路返回。这一任务中,模型需要在长距离中保持空间感知,在正向和反向两个方向上识别多样的视觉地标,并仅凭语言实现双向位置控制。

阿里首个具身大模型系列发布!用一个摄像头,让宇树Go2全屋跑腿

Qwen-RobotNav包含四大核心亮点:

统一多域导航:单一模型、单组权重,在5个导航领域实现8项SOTA,包含目标搜索、跟踪率等测试。

阿里首个具身大模型系列发布!用一个摄像头,让宇树Go2全屋跑腿

可控观测协议:视觉词元预算、时间衰减、逐相机权重、帧采样模式四个控制轴作为推理时参数暴露,训练时逐样本随机化,无需重新训练或修改Qwen3-VL架构即可适配任意配置

智能体导航系统:作为双层系统中可重配置的导航原语,Qwen3.6-Plus作为上层规划器分解长时序目标并调度可配置的导航调用,配合双层记忆机制,在EXPRESS-Bench上提升15.4%,导航步数减少77%。

开放环境泛化:在宇树科技四足机器人Go2上零样本部署,机器人能逐步的语言指令跨多个房间执行任务。

在跨本体迁移方面,其单套模型权重同时服务于腿式机器人导航与自动驾驶,在NAVSIM闭环驾驶测试中,Qwen-RobotNav-4B达到91.4 PDMS。

阿里首个具身大模型系列发布!用一个摄像头,让宇树Go2全屋跑腿

二、Qwen-RobotManip:仅用单一通用策略,可跨场景、跨任务执行操作

物理智能体与真实世界交互需要通过机械臂等完成操作任务,但机械臂在不同场景的关节配置和动作空间有很大区别,核心挑战在于让形态各异的机器人在表示层面实现兼容,使跨机器人、跨数据源的大规模训练产生协同效应而非相互冲突。

在此基础上,Qwen-RobotManip以Qwen3.5-4B VL为骨干、结合流匹配DiT动作头,通过三种机制解决这一问题。

其统一的80维状态-动作表示在单臂、双臂、灵巧手和移动平台等本体间共享,相机坐标系下的末端执行器增量位姿动作,使视觉上相似的运动在不同机器人之间数值上也相近,从而屏蔽形态差异,上下文策略自适应将执行历史视为隐式的本体标识,实现推理时在线行为校准。

研究人员利用开源的11320小时机器人数据、开源的1933小时第一人称人类视频,以及人-机迁移数据合成管线从人类视频合成的跨15个本体的24808小时机器人数据,共计超38100小时数据训练模型。

阿里首个具身大模型系列发布!用一个摄像头,让宇树Go2全屋跑腿

Qwen-RobotManip能通过单一通用策略处理跨多类物体、任务和场景的复杂操作:

阿里首个具身大模型系列发布!用一个摄像头,让宇树Go2全屋跑腿

其还可以在真实环境和仿真中执行多样化的未见指令,如下图所示第一排为真实环境、第二排为仿真环境:

阿里首个具身大模型系列发布!用一个摄像头,让宇树Go2全屋跑腿

此外,在其他本体上训练的任务可零样本迁移至新本体执行(第一排),并通过少量示教快速适应全新任务(第二排):

阿里首个具身大模型系列发布!用一个摄像头,让宇树Go2全屋跑腿

Qwen-RobotManip的核心亮点包括:

统一跨本体对齐框架:统一的80维状态-动作表示兼容多样化本体,相机坐标系末端执行器增量位姿使视觉相似运动数值相近,上下文策略自适应将执行历史作为隐式本体标识,三者共同实现跨本体一致信号提取;

大规模人-机迁移数据合成:管线将1933小时第一人称人类视频,经由动作重定向、手部去除与补绘、仿真渲染及深度辅助融合,转化为跨15个本体的24808小时机器人演示,配合多阶段数据策划管线确保数据质量;

分布外泛化:该模型在多个基准测试中超越π0.5,证实了语言条件控制能力;RoboTwin-XE零样本跨本体迁移性能达到先前最优的3倍;

真实环境表现:RoboChallenge Table30 v1通用赛道以45% SR排名第一,包揽冠亚,领先季军20%;在真实机器人平台上的域内与域外任务、少样本适应及跨本体技能迁移中达到先前最优的2倍。

基于此,研究人员发现,对齐是规模化的前提。只有具备统一跨本体表示的模型(UnifiedSpace+ UnifiedEEF)才能展现出稳定的对数线性数据规模化曲线,没有对齐,增加更多数据只会产生抖动或持平的曲线,规模化无法弥补未对齐表征框架的固有缺陷。

阿里首个具身大模型系列发布!用一个摄像头,让宇树Go2全屋跑腿

三、Qwen-RobotWorld:解决真实世界数据稀缺难题,能跨本体生成机器人操作效果

面对机器人稀缺的真实世界经验,Qwen-RobotWorld通过直接学习世界的状态转移函数来解决这一问题:给定当前观测和一个自然语言动作,预测世界接下来将呈现的样子。

关键设计是将所有动作以自然语言表达,这将末端执行器位姿、转向指令和导航路标点统一为单一接口,使20余种本体类型和500余个动作类别得以在具身世界知识语料库(860万视频-文本对,逾2亿帧)下协同训练,60层双流MMDiT将Qwen2.5-VL的语义表示与视频隐变量深度耦合。

其还将完整的多模态大语言模型作为动作编码器,其带来内化的世界知识,如手臂是刚体、液体会扩散、物体会下落。最后每个领域相互强化:操作教会接触物理,驾驶教会大尺度三维几何,导航教会房间级别的空间推理。

阿里首个具身大模型系列发布!用一个摄像头,让宇树Go2全屋跑腿

给定人类演示,Qwen-RobotWorld能够跨多种本体生成真实的机器人执行效果,无需遥操作:

阿里首个具身大模型系列发布!用一个摄像头,让宇树Go2全屋跑腿

此外在自动驾驶与室内导航场景,驾驶教会模型大尺度三维几何与多智能体动力学,导航教会房间级别的空间推理,每个领域相互强化。

阿里首个具身大模型系列发布!用一个摄像头,让宇树Go2全屋跑腿

Qwen-RobotWorld的核心亮点在于:

语言驱动的统一动作接口:自然语言将20余种机器人本体和500余个动作类别标准化为统一的训练接口,使操作、驾驶、导航和人机迁移得以联合训练,每个领域互相强化;

双流MMDiT+Qwen2.5-VL动作编码器:以完整的多模态大语言模型作为动作编码器,将复杂的组合指令解析为精确的生成信号,并内化物理世界知识,可作为合成数据引擎、闭环策略评估器和动作规划器;

榜单排名:EWMBench总分第一及DreamGen Bench第一;开源模型中WorldModelBench第一,能遵循牛顿定律、质量守恒、流体动力学等物理规律,及PBBench第一。

核心能力:细粒度语言控制,改变单个关键词即产生不同的未来;跨8种以上本体的人机迁移,具备多视角一致生成;在RoboTwin-IF上的零样本鲁棒性。

结语:破解长程任务、人机交互行业瓶颈,阿里迈出关键一步

物理世界智能仍处于起步阶段,涉及复杂接触的长程任务、终身学习、通用规划器与物理执行器的深度融合、以及更丰富的人-机-环境交互,都仍是开放问题。但阿里研究人员在技术博客中提到,他们从强大的多模态理解出发,将视觉语言表示空间桥接至每一类物理行动,扩大训练规模,进一步提升泛化能力。

其博客中透露,他们的目标是一个能够去往任何地方、做任何事情,并预见行动后果的物理智能体,Qwen-Robot Suite就是其迈出的第一步。