机器人前瞻(公众号:robot_pro)
作者 | 许丽思
编辑 | 漠影
近年来,LLM、 VLM以及视频世界模型的技术落地成功,给机器人基础模型研究带来全新思路,VLA、世界模型、世界-动作模型(WAMs)等技术范式在具身智能领域开始得到应用并快速发展。
然而,当LLM凭借着背后成熟的海量文本数据链路,沿着“更多数据、更大参数、更强算力”的Scaling Law快速前进时,具身智能在试图复制这条路径的过程中,却出现“燃料”(即高质量机器人数据)不足的现状,这并非单指数据量匮乏,相反,随着行业蓬勃发展,公开数据集越来越多,数据量的问题正逐步得到解决,但更多数据并不等于更强模型。数据规范及坐标体系不统一、数据高度异质化、孤岛化等问题仍是制约机器人规模化落地的核心瓶颈。
与文本数据可以被压缩成token序列,具备标准化的特点不同,机器人数据天然不统一,存在空间错位&时序错位的问题,比如:
- 不同数据集有不同相机视角;
- 不同机器人有不同机械结构;
- 不同平台有不同 TCP 定义;
- 不同任务有不同世界坐标系;
- 不同遥操作员有不同动作节奏;
- 不同数据格式记录了不同粒度的状态和动作。
具身智能并不是缺少“更多数据”,而是不知道如何组织这些多源异构的机器人数据,使之能被统一学习、迁移与规模化利用,如果不能解决这一问题,“更多数据”只会带来更多的分布差异,而无法为机器人跨场景泛化和系统化能力升级提供真正动力。
针对这一问题,近日,跨维智能联合港中深发布了 Dexterity-BEV(Dex-BEV)三维时空对齐框架。该框架引入Vertex Map、Vertex Spectrum等三维表征方式,为原本 2D 视觉 Token注入精确 3D 空间信息,不仅可以复用成熟的 2D 编码器和预训练视觉模型,还可以弥补传统2D VLA模型缺失物理空间认知的核心缺陷。团队进一步搭建了基准 BEV 对齐坐标系,将多视角RGB图像、机器人动作轨迹映射至统一的三维坐标系中,做空间对齐。同时,团队自研动作轨迹时序对齐机制,并通过全链路数据处理流水线完成不同机器人本体、人工遥操数据、多源数据集之间的时序对齐与归一化处理,实现跨本体、跨场景、跨数据源的高质量数据复用,为通用机器人模型规模化训练确立统一的数据处理基准。

跨维智能希望通过首次将BEV架构引入具身智能,帮助行业在追求更长时长、更大规模的数据同时,也能够定义一种面向 Physical AI 的数据标准化训练范式,推动行业走入快车道。
- 论文标题:Dexterity-BEV: Aligning 3D World and Actions for Generalizable Robot Policies Learning
- 论文地址:https://arxiv.org/abs/2606.02274
- 项目链接:https://hnuzhy.github.io/projects/Dex-BEV/;
一、三维感知缺失与时空错位,引发训练难题
现有的 VLAs/WAMs模型大多依赖二维RGB图像训练,但无法还原完整的三维空间信息。机械臂要在真实立体空间中做出抓取、折叠、移交等操作,但模型却只拥有”平面记忆“,这种根本性的感知失配,直接限制了模型对遮挡、视角突变等现实干扰的鲁棒性。
目前虽有不少研究尝试引入点云、体素等三维数据直接作为模型输入,来解决该问题,但这类三维数据集无论在数据体量、场景丰富度上都远比不上二维数据集,也无法直接基于已有的海量二维数据集直接对模型进行训练,额外训练成本较高。
另一方面,不同相机、不同机器人、不同实验环境的机器人数据无法统一,也导致动作输出和观测输入存在空间对齐缺陷,模型只能被迫拟合语义不一致的标签,比如:
- 关节角度高度依赖机器人型号,同一操作在不同机器人上轨迹可能天差地别
- 末端执行器位姿受坐标系定义制约,不同机器人的坐标约定不同,例如LIBERO数据集中的世界原点由实验台摆放方式决定,CobotMagic 等双臂机器人的左右爪位姿则以各自机械臂的基座坐标系为基准。
同时,人工遥操存在节奏差异,又带来了动作轨迹的时序错位,这意味着模型需要消耗大量容量,额外适配不同时长的动作片段。这些时空错位问题,都让模型难以学到任务的通用逻辑,严重限制了跨场景泛化能力。
二、Dexterity-BEV 如何定义数据标准范式
基于这些观察,研究团队借鉴了自动驾驶领域 Bird’s-Eye View 的思想,但并不是简单把自动驾驶 BEV 搬到机器人的世界里,Dexterity-BEV的设计思路可以用一句话说清:把多来源、多视角、多本体的具身数据,对齐到统一的 3D 空间与动作表达中。从而将分散的原始操作数据组织为更具一致性、可复用性和可迭代性的标准化训练资产,高效盘活存量数据价值。

关键技术1:设计可无缝对接预训练 2D 视觉大模型的三维输入表征
团队创新提出对齐顶点图(aligned vertex map)与顶点频谱(vertex spectrum)像素级 3D 表征方案,依托相机标定参数与可选深度图像,为输入的每一个像素赋予三维空间信息,从而把原本以二维 RGB 为核心的模型输入升级为三维表征,既能无损复用成熟的预训练视觉大模型的语义泛化能力,又能为模型植入 3D 空间感知能力,让机器人精准理解空间物理约束。
也就是说,Dexterity-BEV 并不是用高昂计算代价换取 3D 信息,而是以较小的额外开销,把空间位置注入到现有视觉模型可以理解的结构里。真正可规模化的方法,不仅要表达力强,还必须训练效率高、工程上可持续。
关键技术2:搭建视角无关的标准化 BEV 空间对齐体系
为消除不同相机布局与机器人构型带来的分布差异,团队参考自动驾驶领域的成熟思路,确立 BEV 坐标系作为对齐基准,将多视角三维信息、机器人状态与动作指令映射至统一 BEV 参考系下的三维末端位姿(SE(3) end-effector pose),并通过工具中心点约定、机器人模型注册和正向运动学,将不同机器人平台的数据转化为统一的末端动作表达,对齐到上述的BEV参考坐标系中。至此,输入观测与输出动作在三维空间中被严格对齐。
通过创新性构建对相机安装位置、视角变化不敏感的鸟瞰图像表征,Dexterity-BEV 架构大幅提升了模型对相机位姿动态变化等现实扰动的鲁棒性。如下图所示,即使相机位姿发生剧烈变化,合成出的BEV图像中物体的像素位置几乎保持一致。

关键技术3:搭建完整数据处理管线,产出时空统一的轨迹数据集
为使上述架构能够适配不同来源的异构数据集,实现规模化训练,团队构建了一套完整的数据对齐管线。
在空间对齐方面,通过自研3D GUI工具、ICP配准与DepthAnything V3等基础模型,将所有数据集的相机内外参统一为OpenCV标准格式,并将机器人模型注册(URDF)至共享观测空间,同时制定标准化 TCP 工具中心点坐标规范,统一不同构型机器人的末端位姿表达。
在时序对齐方面,针对不同遥操作者与机器人速度差异,会给模型学习带来额外干扰这一问题,团队自研时序对齐机制,对多源轨迹数据的物理时间重新计算以实现时序校准,消除不同机器人本体、遥操作者与数据集间的差异。
这套流水线的价值在于,它把“数据能否被统一训练”变成一个可以被工程化检查、修正和复用的流程。

不同本体的数据对齐与处理流程
三、实测表现亮眼:仿真与真机双重验证,综合性能全面领先
研究团队在LIBERO、RoboTwin 2.0主流仿真基准与多款真实双臂机器人平台上,对Dexterity-BEV开展系统评测,并与π₀、X-VLA等强基线模型横向对比,重点考察这种统一数据表达架构,是否提升模型在跨场景、跨视角和跨本体条件下的泛化能力。
在仿真测试中,面对相机视角、机器人基座位姿、和场景布局都显著变化的环境,传统基线模型成功率跌至 10% 以下,而 Dexterity-BEV 在Spatial、Object、Goal、Long四个任务套件分别取得92.8%、89.4%、91.0%、86.2%的成功率, 平均成功率达 89.9% ,抗干扰能力拉开明显差距,表明Dexterity-BEV 学习到的并非特定视角下的视觉模式,而是更加接近任务本质的三维空间中的操作规律,使模型能够在视角变化、场景重构等扰动下保持决策稳定性。

为进一步验证 Dexterity-BEV 的实际可用性、鲁棒性与物理精度,团队进一步将Dexterity-BEV部署在四款不同构型的双臂硬件平台上,设计布料折叠、礼盒装配、爆米花舀取、书籍交接等四类长时序、高动态的复杂任务,开展真实场景评测。结果表明,Dexterity-BEV在全部任务中成功率均显著优于π₀、X-VLA基线模型,多项任务成功率突破 90%,在物理双臂灵巧操控领域建立了新的 SOTA 水平。

Dexterity-BEV 摆脱了传统模型记忆场景与操作惯例的局限,通过统一的空间、动作和时间表达,减少了无意义分布差异,真正掌握三维物理操作规律。面对陌生尺寸、全新色彩、人工动态干扰、杂乱初始场景等复杂条件,该框架始终运行稳定,体现出更强的零样本泛化、域外场景适配和自主纠错能力,为通用机器人 VLA 模型面向真实部署落地,提供了可靠的技术方案。
四、Dexterity-BEV 能带来什么?
随着具身智能行业正在从原型机演示进入真实部署阶段,越来越多数据集型涌入视野,但数据仅被采集下来是不够的,一个根本性问题仍未得到解决:数据究竟该以何种范式组织,才能被统一训练、迁移与复用?
这正是跨维智能想回答的问题。其推出Dexterity-BEV的初衷,并非只是贡献一个模型或数据集,而是希望为Physical AI确立一套数据处理基准:当我们能够把任意来源的机器人数据,甚至是人类的第一视角数据,以统一的3D空间语言组织起来,并高效训练时,具身基础模型才真正具备Scaling的前提。
Dex-BEV对齐规范,将作为跨维智能技术闭环中的核心一环,持续降低多源数据的接入与复用成本。公司后续将进一步推动标准化数据集的开放共建,为通用机器人能力迭代提供更高质量的基础支撑。