具身智能的数据困境，不只在数量

智东西（公众号：zhidxcom）
作者 | 许丽思
编辑 | 漠影

过去几年，大模型的发展证明了，模型进化依赖于底层数据红利的爆发，数据就是模型的能力边界。

这也是当前具身智能行业的一大共识。虽然VLA、世界模型等各种技术路线五花八门，行业尚未形成统一答案，但对数据重要性的判断已经趋于一致：数据荒漠已成为制约具身智能泛化能力突破的核心瓶颈。

与此同时，具身智能处于从实验室探索走向产业化前夜。

摩根士丹利预测，2050年全球具身智能市场规模有望达到5万亿美元，中国市场也将在2035年前后迈入万亿元规模。

万亿市场风口就在眼前，但是数据荒漠的瓶颈，让无数算法原型都只能停留在实验室，没法大规模地进入各行各业。

这种预期与现实的巨大落差，正在迅速放大具身智能行业对数据的需求。

围绕这一需求，各地政府开始大力建设具身智能数据采集基地、实训场和跨本体数据平台，多家数据产业链企业也在接连获得大额融资。曾经作为机器人、模型幕后配套的数据环节，走到了产业和资本共同关注的舞台中央。

一、数据产能快速膨胀，行业却卡在这“最后一公里”

随着具身智能模型训练进入数据驱动阶段，数据采集成为各方争夺的新阵地，大厂、本体公司、零部件供应商都跑步进场。

QYResearch数据显示，2024年全球具身智能数据采集工厂市场规模大约为7.53亿美元，预计2031年将达到67.52亿美元，年复合增长率高达36.8%。

数据规模也成为新一轮竞争焦点，千寻智能、灵巧智能、深度机智、觅蜂科技、光轮智能等企业相继提出百万小时乃至千万小时级数据目标。企业希望通过更大规模的数据，增加任务和场景覆盖，推动模型获得更强的泛化能力。

与此同时，传统数采方式成本高、扩展慢，需要投入大量硬件、场地和专业人员，难以快速覆盖真实世界中海量复杂场景，这就使得Ego-centric（第一人称）数据范式开始备受关注。

Ego-centric数据由头戴相机采集，其视角与执行者一致。相比第三人称观察，第一人称视角保留了真实的遮挡关系、视野边界与运动视差，视觉分布与机器人头部相机的感知输入高度一致。

NVIDIA在Ego-Scale中的研究表明，Ego-centric数据规模与验证损失之间呈现近对数线性的scaling law。这意味着，它不仅是遥操作数据的补充，而是具有可预测增益的独立监督来源。

在东南亚、印度等地，不少人只需佩戴轻量化采集设备完成家务、劳动任务，就能同步生成大量第一人称交互数据。这种社会化众包的数采方式，显示出在成本和规模上的巨大潜力。

采集门槛降低之后，数据处理难题却随之放大。模型训练所需要的数据模态非常丰富，包含了视觉、力觉、关节轨迹和语言指令等，对时空、因果对齐精度要求极高。

不过，传统数据服务商推出的数据工具链功能多数较为分散，采集、标注、质检、格式转换和训练对接往往分布在不同工具和流程中。有业内人士提到，模型训练团队往往需要花费大量精力和时间在内部搭建数据管线连通数据生产、清洗、评估、筛选等不同环节，“有时候这些成本甚至是数据采集的3到5倍。”

当行业大力推动具身智能落地时，从原始数据到可用于训练数据之间的“最后一公里”，已逐渐成为影响模型进化、机器人泛化能力和商业落地效率的隐形卡点。

这意味着，真正有价值的不是有多大规模的数据，而是有多少“能用”且“好用”的数据，这一点与数据处理能力直线相关。

因此，为突破具身智能的数据瓶颈，业界的关注点也开始从只盯着如何获得更多数据，扩展到如何将原始数据高效转化为可直接训练的数据资产。

二、从原始视频到训练数据，打造一条自动化流水线

最近，行业内出现不少面向数据处理全流程的平台化方案，试图将过去分散在不同环节的处理工作重新整合。其中，出行服务平台如祺出行旗下如祺数据近期发布的具身智能数据平台，就是一个典型的观察样本。

这个平台将数据导入、AI预处理、动作标注、质量审核和标准化导出纳入统一流水线，降低Ego-centric数据从采集到训练的边际成本。

具身智能的数据困境，不只在数量

▲具身智能数据平台六步式数据自动化处理全流程

具体来说，如祺具身数据平台的自动化处理流水线，会在Ego-centric视频输入后，先将原始视频进行手部检测、相机位姿估计和手部3D姿态优化三阶段AI预处理，输出结构化轨迹；

具身智能的数据困境，不只在数量 ▲标注工作台手部轨迹可视化界面

接着，再借助面向长序列动作切片的标注工作台和五维自动质检报告，最终生成可直接对接LeRobot、HDF5、JSON、ROS 2 MCap等主流训练与仿真框架的标准化数据集。

具身智能的数据困境，不只在数量

▲自动质检可视化审核操作界面

从流程上看，这套平台的第一个核心价值是将零散工具重组为统一生产链路，过去需要由不同平台协同完成的工作被纳入到统一流程中，提升数据处理的标准化、自动化和可追溯水平。

第二个核心价值体现在数据使用门槛上。原始视频能够更快转化为可直接训练的数据资产，减少模型团队搭建内部数据管线、质量校验和格式适配的成本。

更深一层看，平台通过固定流程和质量标准，让具身数据从项目制加工逐步走向可重复、可规模复制的工业化生产。

具身智能的数据困境，不只在数量 ▲平台全自动AI预处理三阶段流水线架构

光看功能，如祺具身数据平台与其他数据处理工具似乎并无本质不同。但更值得关注的问题是，一家出行平台为什么会在具身智能数据产业中找到位置？

三、扎根海量真实场景，沉淀完整、可复用能力

在众多具身智能数据参与者中，如祺数据的特殊性，在于其是由出行平台和智能驾驶数据业务延伸而来。

自动驾驶与具身智能虽然面向不同领域的任务，但都需要AI理解真实物理世界，都需要处理复杂环境、多模态信息和大量长尾场景，为数据工程能力迁移提供了基础。

自2023年起，如祺出行开始布局如祺数据，推出AI数据解决方案，围绕智能驾驶建立数据采集、规模化处理、精准标注、合成数据、多模态处理和数据治理等能力，形成了一套相对完整的数据服务链路。

相关服务已经获得了业务验证。公开信息显示，如祺数据的客户包括小马智行、理想、腾讯等企业，2025年，如祺出行以该业务为主要收入来源的技术服务板块营收已达1.60亿元，同比增长487.4%。

数据也显示，如祺出行在2025年出行服务订单达2.33亿单。每一张订单背后，都是真实的出行和智能驾驶等物理场景。

通过常态化运营的Robotaxi和智能驾驶采集车，如祺出行能够持续以低成本积累多模态物理世界数据，同时也在面向智能驾驶领域的AI数据服务中沉淀出有效处理物理世界复杂数据的能力，包括数据标注、治理、交付等。现在，这些能力正向具身智能等更多物理AI领域外溢。

目前，如祺出行在广州、上海、重庆等地常态化部署超过300辆智能驾驶采集车，每天产生约1600小时、130TB多模态数据。以高价值出行场景为基础，该公司未来还有机会在相关的物理AI领域，提供明确的数据生产与应用入口。

有消息称，如祺出行已在具身智能领域获得商业化订单，同时还在探索将平台积累的数据用于车后服务机器人训练，覆盖洗车、换电、维修等场景。

从行业实践看，具身智能比较理想的数据获取方式，是机器人在落地过程中持续产生数据。当前，不少机器人企业与家电厂商、汽车企业等合作，让机器人进入真实业务流程，在执行任务时发现问题、沉淀数据，再将结果用于模型优化。

依托真实业务场景，如祺出行也有机会形成类似循环。运营场景中产生各类任务，采集和处理相关数据，让模型完成训练后重新进入应用环境，新的执行结果再回流到数据系统，逐步形成“任务发生—数据沉淀—模型训练—应用落地—数据回流”的持续闭环。

相较于一次性搭建的采集场景，真实运营场景能够持续发现真实环境中的复杂情况和长尾问题。尽管有可能带来较高的管理难度，但一旦数据生产、模型训练和应用任务能够顺畅连接，真实场景对机器人能力迭代和商业落地的价值也会更加直接。

结语：具身智能，亟需可规模化的数据方案

当前，行业面临的核心问题已经不只是能否采到更多数据，而是能否以可承受的成本，将海量原始数据持续转化为高质量训练资产。

所以，真正可规模化的数据方案，需要在采集、处理、标注、质检、格式适配和训练对接之间，建立标准化、自动化且可追溯的完整链路，才能避免数据规模扩大后，成本大幅上升、管理变得难以控制。

如祺数据的价值仍需通过真实项目中的数据质量、交付效率和成本优势持续验证，但新平台通过重组数据处理全流程变成标准化工业流水线的做法，正为具身智能行业突破当下的数据困境提供了一条可落地、可参照的探索路径。

那就是，以工程手段，加快将原始数据大规模且高效地转化为可直接训练的数据资产，提高现有数据“可用度”，同时为具身数据规模扩张后的数据应用降本打下基础。

一、数据产能快速膨胀，行业却卡在这“最后一公里”

二、从原始视频到训练数据，打造一条自动化流水线

三、扎根海量真实场景，沉淀完整、可复用能力

结语：具身智能，亟需可规模化的数据方案

相关推荐