剥橘子、开锁、翻袜子全第一！全球最难真机赛场，中国公司反超最强大脑PI

机器人前瞻（公众号：robot_pro）
作者 | 许丽思
编辑 | 漠影

机器人的奥运会，比的居然不是跑跳翻跟头，而是剥橘子、开锁、翻袜子？

对人类来说，这些几乎是下意识就能完成的日常动作；但对机器人而言，几乎每一项都堪称地狱难度，这就是莫拉维克悖论最直观的体现。

前Google资深机器人专家Benjie Holson发起了Benjie’s Olympics，在这项被视为全球具身智能最难真机赛事中，机器人要挑战15项日常任务，比如洗平底锅、叠衣服、开锁等等。

目前，这是全球最强具身大脑公司PI唯一一个主动参加的比赛，而且它用的还是自己的闭源模型，代表了PI的最高水平。

在很多比赛中，PI的身影经常出现，但大多是别人拉着PI的开源模型去跑的，并不是它主动参加。

在Benjie’s Olympics这场顶尖机器人的正面对决中，中国具身智能公司星动纪元，一举拿下两项金牌任务——剥橘子、开锁全球第一，以及银牌任务翻袜子第一。

剥橘子、开锁、翻袜子全第一！全球最难真机赛场，中国公司反超最强大脑PI

星动纪元的表现全面超越PI，刷新世界纪录，还成为了目前榜单上唯一上榜的中国企业，也是唯一一个在该比赛中打败了PI闭源模型的玩家。

一、机器人干活能力全方位大比拼！全自主、零人工干预

Benjie’s Olympics的含金量到底有多高呢？《科学美国人》杂志把它视为物理智能终极真实压力测试，“Demo死在这里，实用机器人从这里诞生。”

Benjie Holson称，赛事被设计成当下不可能完成，暴露“视频可用”与“产品可用”的鸿沟，金牌标准对应的，正是真正家用机器人必须具备的能力。

比赛规则也极其苛刻：机器人必须在真实物理环境中全自主完成任务，应对随机出现的各种情况，没有遥控、没有补救、没有工程师上场扶一把，就像是一场机器人的闭卷裸考。

赛题设置上，Benjie’s Olympics从不追求炫技表演，比拼的是机器人应用落地必须面对的柔性物体、高接触操作、长时序自主任务。

15项任务，按照不同的难度分为金牌、银牌和铜牌任务。比如，将T恤里外翻转并折叠属于铜牌任务，用海绵清洗油腻平底锅、翻袜子属于银牌任务，开锁、剥橘子就是金牌任务。

赛前，Benjie Holson曾判断，完成全部挑战至少需要1年。也有参赛团队提到：”我们花6个月做Demo；在Benjie的任务上3天90%失败。真实世界毫不留情。”

开锁看似只是把钥匙插进锁孔，实际却要求机器人在毫米级目标上完成识别、对准和插入，还要同时处理反光、角度偏差和光照变化。

这是工业制造里高精度装配任务的缩影，比如零部件对孔、插接、卡扣装配等，考验的都是机器人在微小误差容忍度下的精细操作能力。

这项任务中，PI用时66秒，星动纪元49秒完成，快了25%。

剥橘子更难在果皮与果肉边界极其细微，果皮不断形变，稍一失手就会撕裂或打滑。

这类能力接近对软质食材和易损物品的分拣抓取，背后考验的是机器人对软物体、脆弱物体的稳定操作能力。

PI借助工具用时2分46秒完成，星动纪元不用工具、纯手剥在1分47秒完成，速度快35%。

翻袜子过程中，袜子会无规律变形，机器人不仅要跟踪形变，还要判断内外侧和开口位置。

这很接近在家庭服务场景中的布料处理能力，比如整理衣物、叠衣服、翻面，甚至能进一步延伸到酒店、家政、洗护等场景。

PI用176个样本耗时1分33秒完成，星动纪元只用120个样本就把成绩拉到1分04秒，速度快30%，样本数还少31.8%。

所以，Benjie’s Olympics考的，不是机器人能不能完成一个Demo，而是它有没有真正进入家庭、物流和工业场景去稳定干活的能力。

二、三项第一背后，星动纪元赢在闭环能力

从成绩看，星动纪元这次可以说是断层领先：

剥橘子、开锁、翻袜子全第一！全球最难真机赛场，中国公司反超最强大脑PI

星动纪元此次能在三项高难任务中同时拿到第一，核心并不在某一个单点技术的突破，而在于其自研VLA模型已经形成了从感知、规划到执行的系统能力闭环优势，让机器人学得快、看得准、手还稳。

翻袜子任务中，基础模型知识迁移带来的更高数据利用率和更强小样本泛化能力，使星动纪元仅使用120组训练样本，就达到了优于PI的176组样本的任务表现。

机器人学东西更容易上手、不费劲，对场景的适应能力增强，能够极大地降低研发时间与成本。

剥橘子、开锁、翻袜子全第一！全球最难真机赛场，中国公司反超最强大脑PI

▲Benjie’s Olympics公布星动纪元获一项银牌难度任务（翻袜子）第一

针对开锁这类高精度操作任务，星动纪元通过自适应视觉注意力机制，让机器人能够更稳定地识别并聚焦钥匙、锁孔等微小目标，突出关键特征。

就算在复杂环境、反光和姿态偏差的情况下，机器人依旧可以精准识别。

剥橘子、开锁、翻袜子全第一！全球最难真机赛场，中国公司反超最强大脑PI

▲Benjie’s Olympics公布星动纪元获两项金牌难度任务（剥橘子、开锁）第一

针对模型在应用中可能存在的反应延迟、不稳定等问题，星动纪元采用异步推理架构，可以在当前轨迹未完成时，同步预测下一段运动轨迹，生成后立即切换执行。

简单来说，机器人手上还在做动作时，大脑已经把后续要做什么动作全都预判好了，从而实现更紧密的动作衔接。

如图，机器人关节沿第1段规划轨迹（Chunk 1）运动，当第2段新轨迹生成时（对应图中竖线分隔时刻），系统切换至第2段轨迹执行，以此类推。

剥橘子、开锁、翻袜子全第一！全球最难真机赛场，中国公司反超最强大脑PI

这种做法有效抑制了累计动作误差，大幅提升了任务执行的成功率与稳定性，让机器人对非预期扰动的实时响应与应变能力更强。

更重要的是，这套模型体现出的不是单项技巧，而是柔性物体操作、双手协作、工具使用和长程任务处理等多种能力的叠加。

这几类能力，正是衡量具身智能是否能落地实用的关键标尺，星动纪元本次突破，不仅打破海外企业在端到端具身模型领域的技术话语权垄断，也将进一步加速其技术的产业化转化。

三、从榜单第一到真实落地，星动纪元的大脑路线浮出水面

星动纪元本次能夺得亮眼成绩，其实是这家公司长期具身大脑路线积累的集中兑现。

今年2月，陈建宇团队联合斯坦福 Chelsea Finn团队研发的Ctrl-World可控生成世界模型，在全球具身智能顶级世界模型权威评测World Arena榜单中，具身任务能力全球第一，在主体一致性、轨迹精度、深度准确性、策略评估一致性四大核心维度上均位列榜首。

Ctrl-World的重要性在于，它让机器人可以在“想象空间”中完成任务预演、策略评估和自我迭代，把陌生场景下游任务平均成功率提升44.7%。

这意味着，高成本、高风险、低效率的真机试错，有望更多转移到高保真的虚拟环境中完成，从而加快模型训练、评测和迭代，加快具身模型从实验室走向真实落地。

剥橘子、开锁、翻袜子全第一！全球最难真机赛场，中国公司反超最强大脑PI

同样在今年2月，这两个团队再度联手，提出了VLAW框架，首次实现了VLA策略与动作条件世界模型的协同迭代优化。星动纪元也成了唯一和PI两次合作的中国具身公司。

如果把时间线再往前拉，会发现星动纪元对VLA路线的坚持一直就没有变过。

早在2024年9月，星动纪元在全球首次提出分频VLA，推出HiRT快慢分层架构,通过latent向量连接70亿参数世界模型与4000万参数执行模型，甚至比PI、Figure、Google、NVIDIA还快了一步。

2024年12月，星动纪元发布融合世界模型的VLA算法框架VPP，把具身智能可用数据扩展至海量互联网视频数据，机器人得以理解“物理世界”，边想边做。

2025年，星动纪元自研的ERA-42端到端VLA具身大模型，在国内率先实现了对全尺寸双足人形机器人全身及五指灵巧手的精准控制，成为全球能做到这一点的四家公司之一。

这都说明了，星动纪元在具身大脑上的布局并不是跟随行业热点，而是在企业成立初期，就以行业领先者的角色进行探索。

更关键的是，这种技术优势并不只停留在论文、榜单和比赛，而是已经进入真实场景。

ERA-42已经在多个领域落地：在物流领域，它可以完成药品、日化品、包裹的分拣及扫码；在制造领域，它能完成零部件抓取、高精度装配、质量检测等任务；在商业服务领域，可完成门店客座清洁、物品递送、导游导览等。其中，部分场景效率达到70%。

剥橘子、开锁、翻袜子全第一！全球最难真机赛场，中国公司反超最强大脑PI

结语：一场比赛，照见具身智能的下一阶段

Benjie’s Olympics这类高难度真机赛事的价值，不只是决出名次，更在于用真实规则把能演示和能落地真正区分开来。

星动纪元连夺三项第一，证明了国内具身智能企业已经在核心的大脑能力竞争中正面突围，展现出一条正在向真实场景延展的实打实的技术路线。

这也释放出一个清晰的信号，具身智能的下一阶段，比拼的是谁能把感知、规划、控制真正做成一套可复制、可部署、可持续迭代的系统能力。从这次比赛看，以星动纪元为代表的中国企业，正在用更快的速度，把具身智能从会表演推向真干活。

一、机器人干活能力全方位大比拼！全自主、零人工干预

二、三项第一背后，星动纪元赢在闭环能力

三、从榜单第一到真实落地，星动纪元的大脑路线浮出水面

结语：一场比赛，照见具身智能的下一阶段

相关推荐