机器人前瞻(公众号:robot_pro)
作者 | 程茜
编辑 | 漠影

机器人前瞻6月5日消息,今日下午,小米创始人、董事长、CEO雷军发微博庆贺,小米机器人团队在两大国际赛事中拿下双料冠军,大幅领先第二名:

全球计算机视觉与具身智能顶会之一CVPR 2026 Workshops中,小米匿名参赛模型my16,以40.89%成功率位列总榜第一,是本届比赛唯一突破40%的模型。

全球机器人界顶会之一ICRA 2026 WBC中,小米机器人综合得分99.2分(接近满分),整体成功率94%,领先第二名10个百分点

雷军发微博庆祝!小米机器人拿下两个冠军

​▲ICRA 2026 WBC颁奖现场

雷军提到,小米机器人的努力方向,就是让机器人真正走进物理世界,干实际的活。

雷军发微博庆祝!小米机器人拿下两个冠军

​▲雷军发文庆祝

一、CVPR 2026:小米模型唯一成功率突破40%

CVPR 2026具身智能专题Workshop旗下真机机器人竞赛CVPR 2026 Workshops-GigaBrain Challenge-RoboChallenge Track中,包含30个超难度真实任务,包括双臂灵巧任务、覆盖柔性物体操作、工具因果推理和跨平台鲁棒性,需进行10次连续无干扰测试,提交统一多任务模型,注重考验模型泛化能力。

小米的匿名参赛模型my16,是面向真实机器人场景自研的大小脑+长短期记忆世界动作模型。

雷军发微博庆祝!小米机器人拿下两个冠军

该模型在RoboChallenge CVPR 2026真机评测系列任务中成功率达40.89%,是本届赛事唯一突破40%成功率门槛的模型,综合排名位列总榜第一名,第二、第三名的成功率均为21.33%。

雷军发微博庆祝!小米机器人拿下两个冠军

根据小米技术的博客,my16通过S1/S2双系统、长短期记忆、跨本体预训练的整体架构,把三项突出长板能力融合到一个统一模型中,其既具备大模型的认知深度,又具备控制器的执行精度,更具备记忆系统的长程稳定性。

双臂协同任务的操作难点在于,需要哪只手主动、哪只手辅助、左右手时序如何切换的高层角色分工与双臂在共享工作空间中如何规避冲突、力交互如何平衡的低层轨迹一致性协同。

雷军发微博庆祝!小米机器人拿下两个冠军

My16采用显式高层分工、显式低层一致性双层机制,通过大型多模态模型作为S2大脑完成高层角色分工与子目标分配,在执行任务过程中,左右臂分工协作。其还通过世界模型作为S1小脑对双臂未来轨迹进行隐式建模与一致性约束,规避双手轨迹冲突与抢占共享空间的问题。

基于这种双层机制,my16的多任务SR分项性能都超过其它模型,如书本归位任务成功率为60%、开抽屉放物成功率为90%、放笔筒为50%,其他模型在多个项目中成功率为0。

雷军发微博庆祝!小米机器人拿下两个冠军

长时序、多步骤的长程任务挑战在于有无长期记忆。整个任务序列中包含多阶段子步骤,这就意味着当前动作的最优解不仅取决于当前观测,更取决于“我刚才做了什么”和“任务整体进展到哪一步”,即需要任务状态跟踪与阶段切换感知。

雷军发微博庆祝!小米机器人拿下两个冠军

My16首次将显式的长期任务记忆、显式的短期动作记忆双轨记忆机制落地到WAM架构中:长期记忆负责跟踪整体任务进展与子目标完成状态,让模型“记得整体规划”;短期记忆负责捕获最近几个时间步的动作与观测,让模型“记得刚做了什么”。

这使得为my16在按按钮、小勺舀取、盖章定位等任务都获得了较高的成功率。

雷军发微博庆祝!小米机器人拿下两个冠军

精细操作考验机器人动作的最后一厘米精度,细粒度或毫米级精度的视觉对齐与精细动作生成能力,无法仅靠机器人本体采集的有限数据训练出来。

雷军发微博庆祝!小米机器人拿下两个冠军

在预训练阶段,研究人员为my16引入大规模、且贴近真实物理操作分布的human-centric视频预训练数据,让模型从海量人类操作视频中学习物体精细结构、手-物交互模式、目标对齐先验与精细动作语义,即获取人类完成同样任务时最丰富且最有代表性的视觉-动作分布集,从而让其模型具备视觉定位与精细动作生成能力。

这使得模型在打开灯开关、挂杯子、物品分类任务中表现亮眼。

雷军发微博庆祝!小米机器人拿下两个冠军

二、ICRA 2026:面向超市场景,小米机器人接近满分

另一项比赛是ICRA 2026 WBC,其任务主要面向超市场景,要求机器人在16种大类、20个小类别不同饮料中,根据指令从货架上抓取指定饮料,并将饮料放入购物车。

这考验的是覆盖环境感知、自主移动、全身姿态调整、单/双臂抓取与放置执行的全链路协同。

雷军发微博庆祝!小米机器人拿下两个冠军

小米团队综合得分达到99.2分,整体成功率达到94%,是榜单中唯一成功率超过90%的方案,并较第二名高出10个百分点。其中,简单任务成功率100%,复杂任务成功率90%。

雷军发微博庆祝!小米机器人拿下两个冠军

其采用的核心技术路径为高保真数字孪生+Sim-to-Real闭环

首先在资产构建环节,小米机器人团队基于生成式3D资产建模能力,构建了饮料、货架、购物车等关键物体资产。其生成的模型不会直接进入仿真系统,而是需要经过一系列面向机器人任务的资产规范化处理,包括真实尺度标定、网格拓扑整理以及碰撞几何简化。

此举是让3D资产同时满足两类需求:一方面具备接近真实的视觉外观,用于感知和渲染验证;另一方面具备稳定的几何表达和碰撞体,用于可达性分析、碰撞检测和接触交互仿真。

其次是补全物理属性。​研究人员结合视觉语言模型(VLM)与几何先验,对关键物体的物理属性进行补全,包括质量范围、摩擦系数、阻尼、质心位置和碰撞体类型等。例如,饮料瓶、货架、购物车和地面在仿真中应具备不同的质量、摩擦和碰撞响应,通过语义类别、几何形态和任务上下文联合估计物理参数。

然后是搭建1:1的数字孪生场景,研究团队根据真实评测环境进行1:1数字孪生建模,对机器人本体、货架结构、购物车位置、饮料摆放、相机位姿和工作空间边界进行统一对齐。

雷军发微博庆祝!小米机器人拿下两个冠军

​▲仿真环境操作(左)与真机操作(右)

在搭建中,他们更强调机器人任务所需的几何一致性、尺度一致性、坐标一致性和接触一致性。

最后是实现任务级闭环验证,包括观察位选择、底盘站位、双臂可达性、抓取碰撞风险、目标放置稳定性等关键环节。

通过这种方式,场景覆盖不足、视角不稳定、站位偏差、末端不可达、碰撞风险等问题都可以在仿真中提前暴露并修正。最终方案无需依赖大量真机闭环迭代,在真实评测中取得94%成功率和99.2分的接近满分成绩。

雷军发微博庆祝!小米机器人拿下两个冠军

▲ICRA 2026 WBC最终成绩

此外,针对复杂的工厂场景,小米机器人团队还利用多视角三维重建与3D Gaussian Splatting(3DGS)等技术,对工站中的场景进行三维重建。3DGS能在较高渲染效率下生成接近真实相机观测的视觉场景。

雷军发微博庆祝!小米机器人拿下两个冠军

▲自攻螺母上件工站真实工装

结语:系统化工程能力,破局具身智能产业化难题

在真实环境中,机器人在多任务中实现高成功率,并非仅靠单点算法突破,而是更依托于高泛化能力的通用基座模型、高保真数字孪生、任务级闭环验证和稳定Sim-to-Real迁移等形成的系统化工程能力。

此次小米机器人团队基于这样的系统优化,在两项国际赛事中夺冠,也从权威赛场印证了这套技术路线的可行性。

从产业落地视角来看,当下具身智能赛道已经从零散式算法攻关转向全栈系统化研发,或加速其落地。