机器人前瞻(公众号:robot_pro)
作者 | 李水青
编辑 | 漠影

机器人前瞻1月9日报道,近日,在真机基准测试平台RoboChallenge上,自变量机器人开源端到端具身智能基础模型WALL-OSS以54.69分的成绩,成功率35.33%,位列总分榜单第二,超越国际知名具身智能模型pi0。

在叠洗碗巾、按按钮、浇盆栽等多个具体任务中,WALL-OSS拿下单项第一,展现出在真实物理环境中的稳定执行能力。

在这样的“公开考场”中,WALL-OSS的表现成为一次来自中国开源具身智能模型的公开能力验证。

一、WALL-OSS 拿下多项第一

从RoboChallenge公布的榜单来看,参与评测的模型覆盖了多种技术路线与研发背景:既包括来自国际研究机构与创业公司的闭源模型,也有少量开源模型参与同台竞技。

超越Pi0,多项任务第一:中国开源具身智能模型新纪录,叠洗碗巾、浇盆栽全胜任

▲RoboChallenge榜单情况

其中,自变量推出的WALL-OSS模型得分高于美国具身智能创企Physical Intelligence推出的模型pi0,逼近后者的最新开源模型Pi0.5,三者居于榜单前三位,都是开源模型。

在具体任务层面,WALL-OSS在多项精细操作任务中取得第一。

这些任务并不追求复杂场景堆叠,而是高度贴近真实世界中机器人的核心应用场景——物体识别、状态判断、动作连续执行与误差修正。这也是RoboChallenge设计任务的核心逻辑:用最“朴素”的任务,检验模型是否真的理解并适应物理世界。

超越Pi0,多项任务第一:中国开源具身智能模型新纪录,叠洗碗巾、浇盆栽全胜任
▲RoboChallenge在按按钮任务中成功率达60%

整体趋势非常清晰——具身智能正在从“演示级别”走向可对比、可量化的工程阶段。

在这一背景下,WALL-OSS 的代表性进一步凸显。其在参数规模上作出取舍,通过4.2B参数体量,将具身智能模型的训练与部署门槛压到消费级显卡,大幅降低了落地成本。

二、为何开源模型的成绩更“货真价实”?

与大语言模型常见的榜单不同,具身智能测评本质上是一类完全不同的“考试”。

在RoboChallenge等平台上,评测任务提前公开,从形式上看更接近“开卷考试”。但最终的评分依据,并非模型生成的文本或中间结果,而是机器人是否在真实世界中完成了指定动作。

这意味着,模型需要应对的是:物理误差与环境噪声、传感器不确定性、连续动作中的累积偏差,以及大量未被显式建模的现实变量等。

真正决定成绩的,是模型在面对现实世界时的泛化能力与执行稳定性。

正是在这一规则下,开源模型的独特价值被进一步放大。

对比闭源模型,完全开源、公开代码与权重的模型而言,其成绩具备完全可复现性。外界可以清晰判断:模型是否依赖未公开模块,是否通过特殊工程手段规避难点,是否存在只针对评测任务的定向优化。

这使得评测结果更接近对模型基座能力的检验,而非团队工程技巧的展示。

从这个角度看,WALL-OSS在RoboChallenge上取得的成绩,并不仅是一个名次,更是一种技术透明度下的能力证明。这种“在阳光下竞争”的结果,也为行业提供了更可信的比较参照。

超越Pi0,多项任务第一:中国开源具身智能模型新纪录,叠洗碗巾、浇盆栽全胜任
▲自变量机器人具身智能模型支持机器人叠衣服

三、做行业“基础设施”,开源凝聚生态之力

从开源技术路径来看,WALL-OSS并非通过压缩能力换取小体量,而是在架构层面做出了针对性设计。其核心技术路径包括:

1、通过 “共享注意力 + 专家分流” 的创新架构,解决视觉-语言模型向视觉-语言-动作模型迁移过程中常见的 “灾难性遗忘” 与 “模态解耦” 问题;

2、采用 “先离散、后连续、再联合” 的训练范式,在统一框架内融合了思维链推理能力与精细动作生成能力,避免了传统方案中理解与执行割裂的问题。

这种路径并不强调单一模块的极致性能,而是围绕“端到端”这一目标,确保模型在感知、推理与动作之间形成稳定闭环。

在当前具身智能生态中,不少方案仍停留在模块拼接阶段,或依赖闭源组件完成关键能力。相比之下,在同等参数规模下,WALL-OSS是少数真正实现理解—规划—执行一体化的开源统一模型之一。

这使其在生态层面具备明确定位——不仅是一个“可用模型”,更是一个可被二次开发、复现与扩展的基础能力底座。

从自变量机器人的策略来看,选择开源并非一次短期传播行为,而是对具身智能发展路径的判断。

具身智能的复杂度,决定了任何单一团队都难以在短时间内覆盖所有场景与问题。与其封闭迭代,不如通过开源方式,尽早建立可验证、可扩展的技术底座,让更多研究者与开发者在同一基础上探索。

在这一逻辑下,WALL-OSS更夯实了“基础设施”式的存在。其目标并非在短期内覆盖所有应用,而是试图为行业提供一个可靠、低门槛、可持续演进的起点。

结语:中国具身智能开源力量正在崛起

WALL-OSS在RoboChallenge上的表现传递出一个信号:中国团队不仅在参与这场竞赛,而且正在以开源、透明、可复现的方式,进入全球具身智能能力对比的主舞台。

随着真机评测、统一基准与开放生态逐步成熟,具身智能正在告别“概念展示期”,进入更残酷、也更真实的工程阶段。而在这一阶段,谁能提供稳定、可信的基础能力,谁就更有可能成为下一轮创新的起点。

从这个意义上看,WALL-OSS的出现,或许只是中国具身智能开源力量正在崛起的一个开始。