机器人的手终于跟上脑子了？腾讯系创企推出端到端VLA模型

机器人前瞻（公众号：robot_pro）
作者 | 许丽思
编辑 | 漠影

机器人前瞻12月11日报道，今天，星尘智能发布端到端全身VLA模型——Lumo-1，让机器人心手合一，想清楚就干活，借助具身化VLM、跨本体联合训练、推理-动作真机训练、以及强化学习校准对齐等方式，配合绳驱机器人S1的真机训练，将大模型“心智”转化为全身到手的丝滑操作。

Lumo-1展现出较强的操作智能与泛化能力，在多步骤长时序、精细灵巧操作、可泛化抓取放置等三大类核心操作任务中，超越了π0、π0.5等先进模型，尤其在未见过的物体、场景和指令等分布外情况（Out of Distribution，简称OOD），以及抽象、模糊、需扩展推理的指令中，优势明显。

▲通用抓取放置测试结果

机器人的手终于跟上脑子了？腾讯系创企推出端到端VLA模型

▲长时序与灵巧操作任务对比结果

一、热面包、整理文具、打包食物，让机器人像人一样推理、行动

人类执行复杂任务时不只是调用“动作库”，而是实时进行多层次推理——理解抽象语义、拆解子任务、感知空间关系、规划运动路径。

从走路、跳舞到后空翻，动作模仿教会了机器人“怎么动”，而到端盘子、分拣水果、热食物等复杂操作时，机器人不能只模仿，更要识别复杂环境，理解“为什么做”的任务意图，再转化为“动手这么做”的连贯操作。

Lumo-1就赋予了机器人像人一样推理，从而像人一样行动的能力。

比如，尽管没见过这块面包，Lumo-1可以让机器人通过推理识别它，推理出加热＝用微波炉，以及开门、拿起、放入、关门、旋钮、等待、取出等……无需编程，长序列全靠推理完成。

机器人的手终于跟上脑子了？腾讯系创企推出端到端VLA模型

机器人可以在混乱桌面中快速找齐文具，还能精细处理不同形状、材质和尺寸的物品。

机器人的手终于跟上脑子了？腾讯系创企推出端到端VLA模型

在执行把可乐放进蓝盘的任务时，当可乐靠近机器人左臂时，推理用左臂抓取；当人为在左臂与可乐间增加障碍物（未训练场景），实时推理出“左臂受阻→右臂绕行成本更低”，自主切换策略。

机器人的手终于跟上脑子了？腾讯系创企推出端到端VLA模型

机器人在给玩偶配对时，能推理出不同玩偶（雪宝、米妮、三眼怪）与纸片上哪个角色（艾尔莎、米奇、巴斯光年）来自同一动画。

机器人的手终于跟上脑子了？腾讯系创企推出端到端VLA模型

打包食物时，机器人全程快速丝滑，面对奥利奥、油条等分布外物体也能执行。

机器人的手终于跟上脑子了？腾讯系创企推出端到端VLA模型

在纸上机器人报个菜名，比如“肠仔意面”，它就能识别并挑选出对应食材。

机器人的手终于跟上脑子了？腾讯系创企推出端到端VLA模型

二、三阶训练，VLM认知转化为VLA智能

Lumo-1包括了三阶段训练架构：

阶段1：具身化VLM（Embodied VLM）

在精选的视觉-语言数据上持续预训练，让模型具备空间理解、规划、轨迹推断等“具身语义”。Lumo-1在7个经典具身推理基准中大部分超过RoboBrain-7B、Robix-7B等专用模型。

机器人的手终于跟上脑子了？腾讯系创企推出端到端VLA模型

▲精选数据集旨在不损伤预训练VLM的通用多模态理解与推理能力前提下，强化核心具身推理能力

阶段2：跨本体联合训练

融合跨机器人、多视角轨迹、VLM数据上联合训练，强化了指令跟随、物体定位与空间推理能力，使模型开始理解“动作是什么，与指令和观测是什么关系”。

机器人的手终于跟上脑子了？腾讯系创企推出端到端VLA模型 ▲Astribot S1机器人上收集的样本任务

阶段3：真机推理-动作训练（S1轨迹）

利用绳驱机器人Astribot S1高度仿人的示教轨迹，进行带推理过程的动作训练，让模型习得真实世界可执行的动作模式，比如：怎么用双手协同处理物体、如何执行长序列操作、如何将推理一步步落实为轨迹等。

最后，加入强化学习推理-行动对齐（RL Alignment），校准对齐高级推理与低级动作之间的误差，设计了视觉、动作与推理一致、动作执行、推理格式等多维度的奖励信号，通过基于GRPO的学习方案鼓励模型选择更准确、连贯、符合物理规则的动作。

实验表明，该方案使模型在任务成功率、动作合理性与泛化能力上显著超越模仿专家示范的原始表现。

三、三大技术拆解：层层递进的“推理-动作”引擎

1、动作空间建模：从”高频噪声”到”关键路径”

在Lumo-1里，通过动作空间建模SAT（Spatial Action Tokenizer），机器人将动作轨迹转化为可复用、组合的“动作单词库”，能像写句子一样组合动作，或者复用、解释和预测动作。

技术上，SAT将连续动作轨迹压缩成最短路径点，并把旋转/平移的增量动作聚类成紧凑token等，在保持动作空间意义时，减少数据收集引入的无关噪音，比FAST与分桶方法等更紧凑和稳定。
机器人的手终于跟上脑子了？腾讯系创企推出端到端VLA模型

2、结构化推理：让机器人拥有“常识与思考能力”

Lumo-1将推理拆解为两个维度：文字推理与视觉推理。

模型进行多种形式的具身文本推理：

抽象概念推理整合视觉观测和指令以推断隐含语义（”低热量”→排除可乐）；
子任务推理旨在推断到达最终目标的最优中间步骤（微波炉加热→开门→取物→放入→关门→旋钮→取出）；
视觉观测描述强调对显著场景特征和可操作物体的准确识别和分析；
运动推理包括对夹爪空间关系的文字推断，以及运动方向的阐述。

然后再进一步执行视觉推理，以实现基于感知的推断和运动估计。

通过结构化推理（Structured Reasoning），机器人大脑不再死记轨迹，而是形成解释动作的结构化推理链，从执行动作到「执行想法」，使「为什么这样做」先于「怎么做」。

最终，它把视觉理解映射为路径点预测，让2D预测自然落到3D控制上，实现更有目的性、情境化的动作生成。

在S1真机部署中，让机器人“把代表爱情的花放进花瓶”，S1能理解玫瑰代表的文化隐喻；当指令换成”把KFC里的东西放进蓝色容器”，它能推理出炸鸡、汉堡等关联物品。在“把画海洋的工具放进绿盘子”这种任务中，S1也能准确找到蓝色的画笔。

机器人的手终于跟上脑子了？腾讯系创企推出端到端VLA模型

3、强化学习推理-行动对齐（RL Alignment）

Lumo-1在最后加入强化学习推理-行动对齐（RL Alignment），校准对齐高级推理与低级动作之间的误差，在真实轨迹中反馈迭代，通过视觉、动作与推理一致、动作执行、推理格式等多维度GRPO风格奖励信号，鼓励模型选择更准确、连贯、符合物理规则的动作。

四、AI模型能力提升，是机器人大规模落地的关键

星尘智能团队采用数据受限扩展定律验证训练策略，结果显示：在固定模型规模下，数据多样性（场景、物体、指令的覆盖面）对泛化能力的影响远超数据重复次数。这说明了，除了堆数据量，也可以抓数据质量。

另外，Lumo-1在7个多模态基准测试中的6个优于backbone模型Qwen2.5-VL-7B，并超越专门的具身模型RoboBrain-7B和Robix-7B。更关键的是，融入动作学习后，模型的核心多模态感知和推理能力未受损——这证明“推理”与“动作”并非零和博弈。

目前，AI模型能力不足是导致了机器人没能真正大规模落地的关键原因。而当机器人不再只靠预设脚本，而是能够在开放环境中理解语义、拆解任务并自主执行时，具身智能也就加快从“能动”走向“会做事”的新阶段。

一、热面包、整理文具、打包食物，让机器人像人一样推理、行动

二、三阶训练，VLM认知转化为VLA智能

三、三大技术拆解：层层递进的“推理-动作”引擎

四、AI模型能力提升，是机器人大规模落地的关键

相关推荐