智元让机器人看图干活，数分钟自我进化搞定陌生任务！

机器人前瞻（公众号：robot_pro）
作者 | 许丽思
编辑 | 漠影

机器人前瞻12月31日报道，今天，智元发布了Act2Goal方案。

该方案引入了“目标条件世界模型”，让机器人在动手执行任务前，就在大脑里把全流程想清楚了，能够生成一系列中间视觉状态作为任务进程的结构化表征，为机器人动作提供明确操作锚点。

这种将视觉推理与动作控制合二为一的端到端架构，让Act2Goal能够在从未见过的环境和物体面前，展现出较强的零样本泛化能力。

智元让机器人看图干活，数分钟自我进化搞定陌生任务！

比如，给机器人一张目标图片，图片上是从没见过的英文单词，它就可以用记号笔在白板上写下来。

智元让机器人看图干活，数分钟自我进化搞定陌生任务！

机器人也可以根据给定的一张关于甜点摆盘的图像，按照既定位置进行摆盘。

智元让机器人看图干活，数分钟自我进化搞定陌生任务！

按照图片指引，机器人挨个把轴承工件逐个插入小孔。

智元让机器人看图干活，数分钟自我进化搞定陌生任务！

另外，Act2Goal还能自我进化，不需要人类手把手教（无奖励信号），就能在真实世界的交互中，快速“复盘”自己的行为轨迹。实验数据显示，面对高难度的陌生任务，Act2Goal仅需数分钟的在线自我磨练，成功率就能从30%提升至90%。

比如，17分钟内，把饮料瓶准确插入杯架内。

智元让机器人看图干活，数分钟自我进化搞定陌生任务！

在27分钟内，通过反复练习，绘制未见过的图案。

智元让机器人看图干活，数分钟自我进化搞定陌生任务！

一、端到端目标条件策略：从目标感知到动作规划的统一

Act2Goal的核心在于将目标条件世界模型与动作生成策略统一于端到端框架，实现对任务演化过程的结构化理解。

在每次操作前，系统不仅感知当前状态和目标状态，还通过世界模型预测从当前到目标的未来视觉轨迹，为动作专家提供连续、多尺度的规划依据。

通过这种方式，目标不再是静态终点，而是一条可感知、可跟随的演化路径，从而显著提升长时序操作的稳定性与泛化能力。这一范式带来了两个关键优势：

长时序任务中保持高精度与全局对齐：端到端设计结合多尺度时间规划，使机器人既能精确执行短期动作，又能保持整体目标方向一致。

零样本泛化与快速适应新场景：系统能够在未见过的物体、目标配置或复杂环境中稳定执行，并通过在线自我提升机制快速适应新任务，进一步增强鲁棒性和可扩展性。

二、多尺度时域哈希（MSTH）：兼顾短期精细操作与全局合理规划

为了在长时序任务中同时处理精细动作和全局规划，Act2Goal引入了多尺度时域哈希（Multi-Scale Temporal Hashing, MSTH）机制。系统将规划过程划分为：

短时精细段（Proximal）：连续高频采样，用于精确控制机械臂动作；

长时粗粒段（Distal）：自适应采样，用于全局路径规划和目标对齐。

这种设计使机器人在复杂操作中能够兼顾局部动作精度与整体目标方向，有效防止误差累积和目标偏离。

MSTH可同时应用于世界模型的视觉规划与动作专家模块的动作规划。

智元让机器人看图干活，数分钟自我进化搞定陌生任务！ ▲目标驱动的世界模型基于MSTH规则生成操作视频

三、离线模仿学习

为了让Act2Goal具备较强的泛化能力，系统首先通过大规模离线模仿学习进行训练。系统微调预训练的世界模型，使其能够生成从当前状态到目标状态的多视角、多尺度视觉轨迹，并遵循MSTH规则。动作生成模块与世界模型联合训练，通过参考轨迹预测生成可执行动作。

这种联合训练保证了视觉轨迹预测不仅真实可信，而且能够有效指导动作生成，为动作规划奠定基础。系统对整个端到端模型进行行为克隆微调，使从视觉感知到动作生成形成完整闭环。

通过以上训练，Act2Goal学会根据当前状态和目标状态预测未来轨迹，并生成可执行动作，从而具备良好的泛化能力和长期操作稳定性。

智元让机器人看图干活，数分钟自我进化搞定陌生任务！ ▲部署Act2Goal模型的G01机器人在多个域外任务上展现出色性能

四、在线自我提升

尽管离线训练使系统具备较强的泛化能力，但在真实环境中面对新任务、未知物体或复杂操作链时，机器人仍可能遇到性能下降。为此，Act2Goal引入在线自我提升机制，利用回顾性经验重放（HER）实现自主性能优化。

在执行过程中，机器人会自动收集每一步的状态、动作及执行结果，并将轨迹重新标注为新的目标示例，存入回放缓冲区。

无论任务是否成功完成，系统都能利用这些数据进行端到端微调，仅更新新增的LoRA层参数，基础模型保持冻结。

通过这一机制，机器人能够在未见过的环境和目标中快速适应，实现零样本泛化与长期稳定操作，为复杂任务提供强大的鲁棒性和可扩展性。

智元让机器人看图干活，数分钟自我进化搞定陌生任务！ ▲部署Act2Goal模型的机器人在线练习绘制未见过的图案

结语：先理解再行动，重构目标条件机器人操作逻辑

Act2Goal的核心贡献在于重新审视了目标条件操作中的一个基本问题：从当前状态到目标状态之间，机器人是否真正理解过程？通过在策略中显式引入目标条件世界模型，并结合多尺度时间建模与深度融合机制，其为目标条件机器人操作提供了一种新的建模范式。

这种“先理解世界如何变化，再决定如何行动”的思路，将为更通用、更可靠的机器人系统提供重要支撑。

一、端到端目标条件策略：从目标感知到动作规划的统一

二、多尺度时域哈希（MSTH）：兼顾短期精细操作与全局合理规划

三、离线模仿学习

四、在线自我提升

结语：先理解再行动，重构目标条件机器人操作逻辑

相关推荐