一套模型通吃所有机器人，地瓜发了个帧级闭环世界模型

机器人前瞻（公众号：robot_pro）
作者 | 王涵
编辑 | 漠影

机器人前瞻7月2日报道，今天，地瓜机器人算法团队发布世界模型Uranus，该模型是一个基于视频扩散模型、工作在帧级闭环模式下的交互式世界模型。

Uranus的核心思想就是，给定几帧参考图像、机器人关节状态、相机参数和一句文本描述，模型就能自回归地生成多相机视角下连续、可控的未来视频流，模拟机器人与环境的交互过程。

一套模型通吃所有机器人，地瓜发了个帧级闭环世界模型

▲Uranus模型架构：模型在参考帧和历史帧约束下，根据输入的动作通过flow matching生成下一帧

该模型以预训练Wan 2.1视频DiT骨干为基础，采用一阶段训练方案，能够直接产出分钟级可交互视频。

一套模型通吃所有机器人，地瓜发了个帧级闭环世界模型

▲Uranus训练过程使用的Causal Mask

Uranus提供1.3B和14B两个版本，分别适用于快速实验和高保真闭环生成场景。

以下演示展示了Uranus在帧级闭环模式下，对两种不同机器人、不同轨迹的交互仿真效果：

G1机器人在不同场景下执行多种操作轨迹，Uranus可以在多相机视角下实时生成连续的交互画面：

▲G1机器人完成商品条码扫描，三路相机视角同步输出，帧级闭环连续rollout。

Franka机械臂在不同环境和轨迹下的操作效果，Uranus具备跨具身泛化能力，并且能够对复杂末端轨迹的精确响应：

▲Franka机械臂完成物品抓放，展示闭环模式下对末端执行器姿态、夹爪开合的精确控制。

一、首创逐帧闭环仿真，可以随时改指令、即时出反馈

开发一台能自主完成复杂任务的机器人，离不开大量的测试与验证。然而，真实世界的测试昂贵、耗时且难以复现，一台机械臂很难在真实环境中试错成千上万次。

传统仿真器，如Isaac Sim、MuJoCo等，提供了一种替代方案：在虚拟环境中验证算法，再迁移到真实世界。但这条路同样崎岖，因为手工构建仿真场景本身就是一项浩大的工程。3D建模、材质设定、物理参数调校……每一个新环境都需要数天甚至数周的搭建。

有没有一种方法，能像生成图片和视频一样“生成”一个仿真环境？更进一步，能不能像真正的仿真器那样，做到逐帧交互、逐帧闭环？

不同于传统开环生成方案需要提前录入完整动作序列、一次性输出全部视频片段，Uranus用了仿真器式的逐帧运行架构，交互逻辑实现全面升级。

一套模型通吃所有机器人，地瓜发了个帧级闭环世界模型

整套系统采用分步逐帧生成机制：模型结合参考图像、历史画面以及实时动作指令，推算出机器人下一时刻多机位相机对应的视觉画面。每一帧生成完成后，画面会即时存入历史上下文窗口，作为后续帧推理的输入依据，形成完整闭环。

依托逐帧推理的底层设计，用户能够随时更改动作指令，模型可即时做出对应视觉反馈，实现动态操控。

使用者仅需上传初始场景画面与机器人模型文件，就能在虚拟视觉环境中像操控实体机器人一样完成各类调试操作，全程无需人工搭建三维模型，大幅简化机器人仿真测试流程。

二、四大技术亮点，破解长时序闭环难题

Uranus背后主要有四大技术亮点：

1、跨具身零样本泛化

传统方案需要针对不同机器人单独训练专属模型，而Uranus依靠一套统一骨架渲染管线，实现机器人本体结构与模型输入完全解耦。

用户仅需上传URDF、MJCF格式机器人描述文件，并输入关节位置数据，系统就能通过前向运动学算法算出三维关节坐标，再投射至相机平面生成骨架图像。依靠这套机制，单一模型可同时适配G1人形机器人、Franka协作机械臂、双臂机器人以及移动机器人平台等多类设备。

这套能力对闭环交互流程有着关键作用：闭环运行逻辑中，模型会持续将上一帧输出预测作为下一帧输入。若模型仅适配单一机器人，切换设备就必须重新训练，闭环体系根本不具备通用适配能力。

而Uranus这套统一骨架渲染管线，能够把各类机器人的运动动作转化为统一的图像表征，实现跨机型通用。

2、分钟级闭环稳定生成

帧级闭环运行最大难题在于误差累积：模型每一步产生的细微预测偏差，都会作为前置数据输入下一阶段，持续迭代数十帧后极易出现画面失真崩坏。

多数视频生成模型仅能生成数秒开环画面，根源便是未能攻克该痛点。Uranus依靠三项核心设计，打通长时序闭环推演瓶颈：

因果注意力掩码（Causal Mask）：限定单帧仅能读取过往时序信息，严格匹配自回归闭环的因果逻辑；

帧相对位置编码（Frame-Relative RoPE）：模型仅用短片段完成训练，推理阶段却可适配任意时长的闭环连续推演；

参考帧注意力汇（Reference Sink）：依托Transformer原生注意力汇聚特性，把初始基准帧长期留存于上下文窗口充当视觉参照。即便闭环持续运行大量步数，模型始终保有清晰原始画面作为参照，大幅缓解画面偏移失真问题。

3、多视图空间一致

机器人一般搭载多套摄像设备，包含手部相机与环境外置相机等不同机位。Uranus可同步渲染三路及以上相机画面，且多视角画面能够维持统一空间几何关系。算法团队为此设计交替时空注意力架构：

空间计算模式：同步帧下各相机视图互通特征信息，保障多视角空间逻辑统一；
时间计算模式：单台相机沿时间维度建模运动变化，闭环推演阶段仅该模块生成KVCache缓存，降低算力开销。

两种计算模式在模型的DiT网络层级交替运行，平衡图像生成效果与运算效率。

4、精确的相机轨迹控制

Uranus借助普吕克射线嵌入技术，将每一帧相机的内参、外参转化为逐像素稠密几何特征。这套表征完全依托相机标定参数生成，不需要模型额外学习。

落地到闭环交互场景，该特性带来一大优势，即用户可像操作常规仿真工具一样，随时调整相机位姿；模型会依据更新后的相机参数，在下一帧同步输出匹配新机位的画面。

三、引入KV-Cache缓存，算力开销恒定可控

帧级闭环推演对模型的工程性能提出了极高挑战。模型每生成一帧画面，都要完成一轮完整的去噪扩散流程，若每一步都从零计算注意力特征，计算开销将随序列长度呈平方级暴涨，严重限制长时序闭环运行能力。

针对这一性能瓶颈，算法团队为Uranus引入KV-Cache缓存与滑动窗口机制，大幅压缩推理成本。

在预填充阶段，系统会提前计算并缓存。与此同时，平台通过滑动窗口淘汰机制，动态管理时序数据。当历史帧数量超出窗口阈值时，系统会自动舍弃最早的帧数据，始终保持单步推理开销稳定可控。

在训练层面，算法团队融合HSDP、序列并行与VAE分块并行的混合训练策略，模型可支撑64卡大规模集群训练，高效完成长时序模型迭代。

一套模型通吃所有机器人，地瓜发了个帧级闭环世界模型

推理阶段，模型则依托KV-Cache、滑动窗口淘汰与序列并行三重优化，实现恒定层级的单步延迟与显存占用。无论闭环生成多少帧画面，模型算力开销始终保持稳定，能够稳定支撑多环境并行实时推演。

结语：地瓜机器人让机器人自主学习环境交互

帧级闭环是Uranus相较普通视频生成模型最核心的差异化能力。该框架能够逐帧接收操控指令、逐帧输出视觉画面，并把生成画面回输作为下一帧的输入条件，也正因这套闭环逻辑，它得以成为具备实操价值的交互式仿真工具

地瓜机器人的算法团队的整套方案以数据驱动为核心，让机器人依托虚拟视觉推演，完成与环境交互的自主学习。

一、首创逐帧闭环仿真，可以随时改指令、即时出反馈

二、四大技术亮点，破解长时序闭环难题

三、引入KV-Cache缓存，算力开销恒定可控

结语：地瓜机器人让机器人自主学习环境交互

相关推荐