数据孤岛如何打破？跨维智能Dex-BEV定义机器人数据新基准

机器人前瞻（公众号：robot_pro）
作者 | 许丽思
编辑 | 漠影

近年来，LLM、 VLM以及视频世界模型的技术落地成功，给机器人基础模型研究带来全新思路，VLA、世界模型、世界-动作模型（WAMs）等技术范式在具身智能领域开始得到应用并快速发展。

然而，当LLM凭借着背后成熟的海量文本数据链路，沿着“更多数据、更大参数、更强算力”的Scaling Law快速前进时，具身智能在试图复制这条路径的过程中，却出现“燃料”（即高质量机器人数据）不足的现状，这并非单指数据量匮乏，相反，随着行业蓬勃发展，公开数据集越来越多，数据量的问题正逐步得到解决，但更多数据并不等于更强模型。数据规范及坐标体系不统一、数据高度异质化、孤岛化等问题仍是制约机器人规模化落地的核心瓶颈。

与文本数据可以被压缩成token序列，具备标准化的特点不同，机器人数据天然不统一，存在空间错位&时序错位的问题，比如：

不同数据集有不同相机视角；
不同机器人有不同机械结构；
不同平台有不同 TCP 定义；
不同任务有不同世界坐标系；
不同遥操作员有不同动作节奏；
不同数据格式记录了不同粒度的状态和动作。

具身智能并不是缺少“更多数据”，而是不知道如何组织这些多源异构的机器人数据，使之能被统一学习、迁移与规模化利用，如果不能解决这一问题，“更多数据”只会带来更多的分布差异，而无法为机器人跨场景泛化和系统化能力升级提供真正动力。

针对这一问题，近日，跨维智能联合港中深发布了 Dexterity-BEV（Dex-BEV）三维时空对齐框架。该框架引入Vertex Map、Vertex Spectrum等三维表征方式，为原本 2D 视觉 Token注入精确 3D 空间信息，不仅可以复用成熟的 2D 编码器和预训练视觉模型，还可以弥补传统2D VLA模型缺失物理空间认知的核心缺陷。团队进一步搭建了基准 BEV 对齐坐标系，将多视角RGB图像、机器人动作轨迹映射至统一的三维坐标系中，做空间对齐。同时，团队自研动作轨迹时序对齐机制，并通过全链路数据处理流水线完成不同机器人本体、人工遥操数据、多源数据集之间的时序对齐与归一化处理，实现跨本体、跨场景、跨数据源的高质量数据复用，为通用机器人模型规模化训练确立统一的数据处理基准。

数据孤岛如何打破？跨维智能Dex-BEV定义机器人数据新基准

跨维智能希望通过首次将BEV架构引入具身智能，帮助行业在追求更长时长、更大规模的数据同时，也能够定义一种面向 Physical AI 的数据标准化训练范式，推动行业走入快车道。

论文标题：Dexterity-BEV: Aligning 3D World and Actions for Generalizable Robot Policies Learning
论文地址：https://arxiv.org/abs/2606.02274
项目链接：https://hnuzhy.github.io/projects/Dex-BEV/；

一、三维感知缺失与时空错位，引发训练难题

现有的 VLAs/WAMs模型大多依赖二维RGB图像训练，但无法还原完整的三维空间信息。机械臂要在真实立体空间中做出抓取、折叠、移交等操作，但模型却只拥有”平面记忆“，这种根本性的感知失配，直接限制了模型对遮挡、视角突变等现实干扰的鲁棒性。

目前虽有不少研究尝试引入点云、体素等三维数据直接作为模型输入，来解决该问题，但这类三维数据集无论在数据体量、场景丰富度上都远比不上二维数据集，也无法直接基于已有的海量二维数据集直接对模型进行训练，额外训练成本较高。

另一方面，不同相机、不同机器人、不同实验环境的机器人数据无法统一，也导致动作输出和观测输入存在空间对齐缺陷，模型只能被迫拟合语义不一致的标签，比如：

关节角度高度依赖机器人型号，同一操作在不同机器人上轨迹可能天差地别
末端执行器位姿受坐标系定义制约，不同机器人的坐标约定不同，例如LIBERO数据集中的世界原点由实验台摆放方式决定，CobotMagic 等双臂机器人的左右爪位姿则以各自机械臂的基座坐标系为基准。

同时，人工遥操存在节奏差异，又带来了动作轨迹的时序错位，这意味着模型需要消耗大量容量，额外适配不同时长的动作片段。这些时空错位问题，都让模型难以学到任务的通用逻辑，严重限制了跨场景泛化能力。

二、Dexterity-BEV 如何定义数据标准范式

基于这些观察，研究团队借鉴了自动驾驶领域 Bird’s-Eye View 的思想，但并不是简单把自动驾驶 BEV 搬到机器人的世界里，Dexterity-BEV的设计思路可以用一句话说清：把多来源、多视角、多本体的具身数据，对齐到统一的 3D 空间与动作表达中。从而将分散的原始操作数据组织为更具一致性、可复用性和可迭代性的标准化训练资产，高效盘活存量数据价值。

数据孤岛如何打破？跨维智能Dex-BEV定义机器人数据新基准

关键技术1：设计可无缝对接预训练 2D 视觉大模型的三维输入表征

团队创新提出对齐顶点图（aligned vertex map）与顶点频谱（vertex spectrum）像素级 3D 表征方案，依托相机标定参数与可选深度图像，为输入的每一个像素赋予三维空间信息，从而把原本以二维 RGB 为核心的模型输入升级为三维表征，既能无损复用成熟的预训练视觉大模型的语义泛化能力，又能为模型植入 3D 空间感知能力，让机器人精准理解空间物理约束。

也就是说，Dexterity-BEV 并不是用高昂计算代价换取 3D 信息，而是以较小的额外开销，把空间位置注入到现有视觉模型可以理解的结构里。真正可规模化的方法，不仅要表达力强，还必须训练效率高、工程上可持续。

关键技术2：搭建视角无关的标准化 BEV 空间对齐体系

为消除不同相机布局与机器人构型带来的分布差异，团队参考自动驾驶领域的成熟思路，确立 BEV 坐标系作为对齐基准，将多视角三维信息、机器人状态与动作指令映射至统一 BEV 参考系下的三维末端位姿（SE(3) end-effector pose），并通过工具中心点约定、机器人模型注册和正向运动学，将不同机器人平台的数据转化为统一的末端动作表达，对齐到上述的BEV参考坐标系中。至此，输入观测与输出动作在三维空间中被严格对齐。

通过创新性构建对相机安装位置、视角变化不敏感的鸟瞰图像表征，Dexterity-BEV 架构大幅提升了模型对相机位姿动态变化等现实扰动的鲁棒性。如下图所示，即使相机位姿发生剧烈变化，合成出的BEV图像中物体的像素位置几乎保持一致。

数据孤岛如何打破？跨维智能Dex-BEV定义机器人数据新基准

关键技术3：搭建完整数据处理管线，产出时空统一的轨迹数据集

为使上述架构能够适配不同来源的异构数据集，实现规模化训练，团队构建了一套完整的数据对齐管线。

在空间对齐方面，通过自研3D GUI工具、ICP配准与DepthAnything V3等基础模型，将所有数据集的相机内外参统一为OpenCV标准格式，并将机器人模型注册（URDF）至共享观测空间，同时制定标准化 TCP 工具中心点坐标规范，统一不同构型机器人的末端位姿表达。

在时序对齐方面，针对不同遥操作者与机器人速度差异，会给模型学习带来额外干扰这一问题，团队自研时序对齐机制，对多源轨迹数据的物理时间重新计算以实现时序校准，消除不同机器人本体、遥操作者与数据集间的差异。

这套流水线的价值在于，它把“数据能否被统一训练”变成一个可以被工程化检查、修正和复用的流程。

数据孤岛如何打破？跨维智能Dex-BEV定义机器人数据新基准

不同本体的数据对齐与处理流程

三、实测表现亮眼：仿真与真机双重验证，综合性能全面领先

研究团队在LIBERO、RoboTwin 2.0主流仿真基准与多款真实双臂机器人平台上，对Dexterity-BEV开展系统评测，并与π₀、X-VLA等强基线模型横向对比，重点考察这种统一数据表达架构，是否提升模型在跨场景、跨视角和跨本体条件下的泛化能力。

在仿真测试中，面对相机视角、机器人基座位姿、和场景布局都显著变化的环境，传统基线模型成功率跌至 10% 以下，而 Dexterity-BEV 在Spatial、Object、Goal、Long四个任务套件分别取得92.8%、89.4%、91.0%、86.2%的成功率, 平均成功率达 89.9% ，抗干扰能力拉开明显差距，表明Dexterity-BEV 学习到的并非特定视角下的视觉模式，而是更加接近任务本质的三维空间中的操作规律，使模型能够在视角变化、场景重构等扰动下保持决策稳定性。

数据孤岛如何打破？跨维智能Dex-BEV定义机器人数据新基准

为进一步验证 Dexterity-BEV 的实际可用性、鲁棒性与物理精度，团队进一步将Dexterity-BEV部署在四款不同构型的双臂硬件平台上，设计布料折叠、礼盒装配、爆米花舀取、书籍交接等四类长时序、高动态的复杂任务，开展真实场景评测。结果表明，Dexterity-BEV在全部任务中成功率均显著优于π₀、X-VLA基线模型，多项任务成功率突破 90%，在物理双臂灵巧操控领域建立了新的 SOTA 水平。

数据孤岛如何打破？跨维智能Dex-BEV定义机器人数据新基准

Dexterity-BEV 摆脱了传统模型记忆场景与操作惯例的局限，通过统一的空间、动作和时间表达，减少了无意义分布差异，真正掌握三维物理操作规律。面对陌生尺寸、全新色彩、人工动态干扰、杂乱初始场景等复杂条件，该框架始终运行稳定，体现出更强的零样本泛化、域外场景适配和自主纠错能力，为通用机器人 VLA 模型面向真实部署落地，提供了可靠的技术方案。

四、Dexterity-BEV 能带来什么？

随着具身智能行业正在从原型机演示进入真实部署阶段，越来越多数据集型涌入视野，但数据仅被采集下来是不够的，一个根本性问题仍未得到解决：数据究竟该以何种范式组织，才能被统一训练、迁移与复用？

这正是跨维智能想回答的问题。其推出Dexterity-BEV的初衷，并非只是贡献一个模型或数据集，而是希望为Physical AI确立一套数据处理基准：当我们能够把任意来源的机器人数据，甚至是人类的第一视角数据，以统一的3D空间语言组织起来，并高效训练时，具身基础模型才真正具备Scaling的前提。

Dex-BEV对齐规范，将作为跨维智能技术闭环中的核心一环，持续降低多源数据的接入与复用成本。公司后续将进一步推动标准化数据集的开放共建，为通用机器人能力迭代提供更高质量的基础支撑。

一、三维感知缺失与时空错位，引发训练难题

二、Dexterity-BEV 如何定义数据标准范式

三、实测表现亮眼：仿真与真机双重验证，综合性能全面领先

四、Dexterity-BEV 能带来什么？

相关推荐