机器人前瞻(公众号:robot_pro)
作者 |  许丽思
编辑 |  漠影

机器人前瞻12月11日报道,今天,星尘智能发布端到端全身VLA模型——Lumo-1,让机器人心手合一,想清楚就干活,借助具身化VLM、跨本体联合训练、推理-动作真机训练、以及强化学习校准对齐等方式,配合绳驱机器人S1的真机训练,将大模型“心智”转化为全身到手的丝滑操作。

Lumo-1展现出较强的操作智能与泛化能力,在多步骤长时序、精细灵巧操作、可泛化抓取放置等三大类核心操作任务中,超越了π0、π0.5等先进模型,尤其在未见过的物体、场景和指令等分布外情况(Out of Distribution,简称OOD),以及抽象、模糊、需扩展推理的指令中,优势明显。

机器人的手终于跟上脑子了?腾讯系创企推出端到端VLA模型

▲通用抓取放置测试结果

机器人的手终于跟上脑子了?腾讯系创企推出端到端VLA模型

▲长时序与灵巧操作任务对比结果

一、热面包、整理文具、打包食物,让机器人像人一样推理、行动

人类执行复杂任务时不只是调用“动作库”,而是实时进行多层次推理——理解抽象语义、拆解子任务、感知空间关系、规划运动路径。

从走路、跳舞到后空翻,动作模仿教会了机器人“怎么动”,而到端盘子、分拣水果、热食物等复杂操作时,机器人不能只模仿,更要识别复杂环境,理解“为什么做”的任务意图,再转化为“动手这么做”的连贯操作。

Lumo-1就赋予了机器人像人一样推理,从而像人一样行动的能力。

比如,尽管没见过这块面包,Lumo-1可以让机器人通过推理识别它,推理出加热=用微波炉,以及开门、拿起、放入、关门、旋钮、等待、取出等……无需编程,长序列全靠推理完成。

机器人的手终于跟上脑子了?腾讯系创企推出端到端VLA模型

机器人可以在混乱桌面中快速找齐文具,还能精细处理不同形状、材质和尺寸的物品。

机器人的手终于跟上脑子了?腾讯系创企推出端到端VLA模型

在执行把可乐放进蓝盘的任务时,当可乐靠近机器人左臂时,推理用左臂抓取;当人为在左臂与可乐间增加障碍物(未训练场景),实时推理出“左臂受阻→右臂绕行成本更低”,自主切换策略。

机器人的手终于跟上脑子了?腾讯系创企推出端到端VLA模型

机器人在给玩偶配对时,能推理出不同玩偶(雪宝、米妮、三眼怪)与纸片上哪个角色(艾尔莎、米奇、巴斯光年)来自同一动画。

机器人的手终于跟上脑子了?腾讯系创企推出端到端VLA模型

打包食物时,机器人全程快速丝滑,面对奥利奥、油条等分布外物体也能执行。

机器人的手终于跟上脑子了?腾讯系创企推出端到端VLA模型

在纸上机器人报个菜名,比如“肠仔意面”,它就能识别并挑选出对应食材。

机器人的手终于跟上脑子了?腾讯系创企推出端到端VLA模型

二、三阶训练,VLM认知转化为VLA智能

Lumo-1包括了三阶段训练架构:

阶段1:具身化VLM(Embodied VLM)

在精选的视觉-语言数据上持续预训练,让模型具备空间理解、规划、轨迹推断等“具身语义”。Lumo-1在7个经典具身推理基准中大部分超过RoboBrain-7B、Robix-7B等专用模型。

机器人的手终于跟上脑子了?腾讯系创企推出端到端VLA模型

▲精选数据集旨在不损伤预训练VLM的通用多模态理解与推理能力前提下,强化核心具身推理能力

阶段2:跨本体联合训练

融合跨机器人、多视角轨迹、VLM数据上联合训练,强化了指令跟随、物体定位与空间推理能力,使模型开始理解“动作是什么,与指令和观测是什么关系”。

机器人的手终于跟上脑子了?腾讯系创企推出端到端VLA模型▲Astribot S1机器人上收集的样本任务

阶段3:真机推理-动作训练(S1轨迹)

利用绳驱机器人Astribot S1高度仿人的示教轨迹,进行带推理过程的动作训练,让模型习得真实世界可执行的动作模式,比如:怎么用双手协同处理物体、如何执行长序列操作、如何将推理一步步落实为轨迹等。

最后,加入强化学习推理-行动对齐(RL Alignment),校准对齐高级推理与低级动作之间的误差,设计了视觉、动作与推理一致、动作执行、推理格式等多维度的奖励信号,通过基于GRPO的学习方案鼓励模型选择更准确、连贯、符合物理规则的动作。

实验表明,该方案使模型在任务成功率、动作合理性与泛化能力上显著超越模仿专家示范的原始表现。

三、三大技术拆解:层层递进的“推理-动作”引擎

1、动作空间建模:从”高频噪声”到”关键路径”

在Lumo-1里,通过动作空间建模SAT(Spatial Action Tokenizer),机器人将动作轨迹转化为可复用、组合的“动作单词库”,能像写句子一样组合动作,或者复用、解释和预测动作。

技术上,SAT将连续动作轨迹压缩成最短路径点,并把旋转/平移的增量动作聚类成紧凑token等,在保持动作空间意义时,减少数据收集引入的无关噪音,比FAST与分桶方法等更紧凑和稳定。
机器人的手终于跟上脑子了?腾讯系创企推出端到端VLA模型

2、结构化推理:让机器人拥有“常识与思考能力”

Lumo-1将推理拆解为两个维度:文字推理与视觉推理。

模型进行多种形式的具身文本推理:

  • 抽象概念推理整合视觉观测和指令以推断隐含语义(”低热量”→排除可乐);
  • 子任务推理旨在推断到达最终目标的最优中间步骤(微波炉加热→开门→取物→放入→关门→旋钮→取出);
  • 视觉观测描述强调对显著场景特征和可操作物体的准确识别和分析;
  • 运动推理包括对夹爪空间关系的文字推断,以及运动方向的阐述。

然后再进一步执行视觉推理,以实现基于感知的推断和运动估计。

通过结构化推理(Structured Reasoning),机器人大脑不再死记轨迹,而是形成解释动作的结构化推理链,从执行动作到「执行想法」,使「为什么这样做」先于「怎么做」。

最终,它把视觉理解映射为路径点预测,让2D预测自然落到3D控制上,实现更有目的性、情境化的动作生成。

在S1真机部署中,让机器人“把代表爱情的花放进花瓶”,S1能理解玫瑰代表的文化隐喻;当指令换成”把KFC里的东西放进蓝色容器”,它能推理出炸鸡、汉堡等关联物品。在“把画海洋的工具放进绿盘子”这种任务中,S1也能准确找到蓝色的画笔。

机器人的手终于跟上脑子了?腾讯系创企推出端到端VLA模型

3、强化学习推理-行动对齐(RL Alignment)

Lumo-1在最后加入强化学习推理-行动对齐(RL Alignment),校准对齐高级推理与低级动作之间的误差,在真实轨迹中反馈迭代,通过视觉、动作与推理一致、动作执行、推理格式等多维度GRPO风格奖励信号,鼓励模型选择更准确、连贯、符合物理规则的动作。

四、AI模型能力提升,是机器人大规模落地的关键

星尘智能团队采用数据受限扩展定律验证训练策略,结果显示:在固定模型规模下,数据多样性(场景、物体、指令的覆盖面)对泛化能力的影响远超数据重复次数。这说明了,除了堆数据量,也可以抓数据质量。

另外,Lumo-1在7个多模态基准测试中的6个优于backbone模型Qwen2.5-VL-7B,并超越专门的具身模型RoboBrain-7B和Robix-7B。更关键的是,融入动作学习后,模型的核心多模态感知和推理能力未受损——这证明“推理”与“动作”并非零和博弈。

目前,AI模型能力不足是导致了机器人没能真正大规模落地的关键原因。而当机器人不再只靠预设脚本,而是能够在开放环境中理解语义、拆解任务并自主执行时,具身智能也就加快从“能动”走向“会做事”的新阶段。