机器人前瞻(公众号:robot_pro)
作者 | 江宇
编辑 | 漠影

过去一年,具身智能赛道在模型、硬件和应用层面不断取得进展,一个共识正在业内逐渐形成:真正限制具身智能进一步Scale的,是真实、可复用的数据。

“目前机器人领域的发展,核心还是离不开训练数据,”在近期的一次公开分享中,宇树科技创始人王兴兴这样概括他对具身行业的判断。

也正因如此,数据问题正在成为具身智能进一步扩展能力边界时,绕不开的核心约束。正是在这样的背景下,鹿明机器人选择了一条不一样的路。

近日,鹿明机器人发布全球首款背包版UMI数采设备FastUMI Pro(背包版),并同步启动真实场景数据采集计划

奔向百万小时数据量,鹿明带着“背包”走向工厂、餐馆和商场

按照规划,鹿明将在多个城市投放1万台背包版FastUMI Pro,进入工业、家庭、酒店、餐馆、商场、办公等六大真实场景,目标直指百万小时级数据量,构建面向具身智能训练的规模化数据基础设施。与此同时,鹿明“FastUMI Pro数据超市”也将上线。

这一动作,也让鹿明首次以“数据基础设施建设者”与“具身智能送水人”的身份,站到了具身智能行业的聚光灯下。

围绕该数采计划,机器人前瞻也与鹿明机器人联席CTO丁琰进行了交流。

丁琰将这一选择概括为一次“工程阶段的推进”,要将采集推向更真实、更复杂的场景,让数据真正覆盖模型未来要面对的真实世界。

一、当模型开始“卡在数据上”,具身智能不得不正视真实世界

在具身智能逐步走向真实应用的过程中,数据的局限往往比模型能力更早暴露出来。

丁琰把数据采集拆成了清晰的阶段:第一阶段在数采场的里做采集,光线、环境、背景、人员管理都可控。

他提到,鹿明机器人在这一阶段持续完善采集SOP、采集软件与硬件迭代,以及对数据质量的评估机制,“基本上在数采厂里可以实现自动运转”

但当任务难度抬升,模型开始被迫面对更复杂的物理约束与环境噪声时,可控场景的数据分布很快会显出边界。

丁琰的一个判断是:之所以行业里会出现仿真、视频、强化学习等多种数据路线,很大程度上是因为不少任务在早期还相对简单,多种方式“看起来都能做”。可一旦进入更真实、更凌乱的作业场景,数据的真实性与一致性就会变成硬约束。

他举了工厂质检场景为例:这不是在实验室里“干净环境”的抓取,是在复杂工况里完成更强约束的操作与判断,“如果只是做一些简单的仿真,或者其他东西就已经很难去满足这种客户的要求了”。

在他看来,这也是为什么真实、可靠的真机数据最终不可回避:视频数据可以训练“看懂世界”,仿真可以扩展一定的组合空间,但当目标是“上手干活”,与物理世界交互的那部分能力,最终还是要靠真实交互数据来支撑。

换句话说,随着任务复杂度上升,数据问题是决定模型能否继续往前走的底层条件。

二、为什么是背包形态?让数据从数采场走向真实场景

当“走进真实世界”成为下一阶段的共识,新的问题随之出现:真实场景数据如何稳定采到、如何在采集当下就判断好坏、如何把采集与后续训练推理打通?

丁琰解释称:背包是一种“很天然的形态”。对UMI这种多传感器采集系统而言,如果把数据完全离线存下来,数据量与吞吐会很可怕,很难有一个很好的离线存储的方式,因此需要把数据落到随身的计算单元上。

更关键的是,背包里的“小电脑”不只是存储节点,也是质量评估与任务管理节点。

丁琰强调,鹿明团队非常看重数据质量,希望采完一条数据能即时做质量评估,告诉采集者好还是不好、为什么不好,否则采了一天的数据可能都是废掉的,而且在较长时间里都不知道问题出在哪里。

背包形态使得这种“边采边评估”成为可能,同时也方便任务分配、打卡登记与人员管理。再叠加8小时续航,背包版FastUMI Pro在形态上更像一套可移动的标准数采工作站,让采集真正能够从可控场地走进工厂、酒店、餐馆等开放环境。

三、万台级真实场景采集,“大规模”背后是行业稀缺的工程能力

万台设备、六大场景、百万小时真机数据量,本身就是一个足以引发行业关注的数字。

但更值得讨论的,它隐含的门槛:当采集从少量样本进入规模化阶段,真正决定上限的往往是数据体系能否持续复用、持续扩展。

丁琰提到,鹿明之所以选择在这个时间点把采集推向真实场景,是因为鹿明已经完成了数采第一阶段——自建“数采场”采集体系的打磨。光线、环境、人员管理全部可控,采集SOP、软件系统、硬件迭代、数据质量评估体系等条件全部具备。

同时,业务侧也出现了明确的牵引:鹿明机器人在交付了100万条数据后,客户开始提出更进阶的需求,希望获得真实场景的数据,这推动团队去探索更有价值、更有难度的采集方式。

放在具身智能行业,丁琰的判断是:不同团队在数据管线(数据生产、数据质量评估、数据治理以及训练形态)上,差异可能比外界想象得更早出现。

他把这称为“数据决定的东西很多”:一旦选择了某种数据管道,后续很多算法研究与训练方式都会随之变化。

更重要的是,鹿明所选择的“无本体”采集方式在速度、扩展性和一致性上更容易形成积累优势:采集更快,数据积累速度更快;传感器模态的扩展更顺滑,数据处理管线也更容易复用;采(数据采集)、训(策略训练)、推(模型推理)在同一交互形态下保持一致,有利于把现场“不会的任务”更快转化为可用策略。

这些点共同构成了鹿明这番“大规模”动作的用意:把真实世界的复杂性变成一套可运行的工程系统,并且让系统能够长时间、跨场景地稳定产出。

四、“采–训–推”闭环,是数据基础设施的核心能力

数据的价值,最终取决于它能否被快速转化为模型能力。如果仅从产品层面看,FastUMI Pro是一套数采软硬件系统,但从鹿明机器人的战略路线看,它承担的角色显然不止于此。

丁琰在采访中反复强调,鹿明已经把“采–训–推”的基建打通,这也是团队敢把真实场景采集推向规模化的底气之一。

▲FastUMI Pro在工业及家庭场景的多个任务中,完成“数据采集-策略训练-模型推理”闭环。

数据不是采完就结束,而是能被快速消化、快速反馈,进而反过来指导下一轮采集与任务扩展,也正是在这种闭环基础上,鹿明机器人把“真实场景规模化采集”定义为下一阶段的重点:用更多、更真实的场景数据,推高模型能力上限,突破模型能力的天花板。

与此同时,配套上线的“FastUMI Pro数据超市”,则把通用数据进一步产品化,尝试以更标准的方式让数据进入流通体系,用户可直接通过其官网商城购买覆盖多场景、多任务的标准化操作数据。

结语:真实数据,是具身智能绕不开的底座

从背包版FastUMI Pro的推出,到万台级真实场景采集计划的启动,鹿明机器人所做的,并不只是一次新品发布或规模扩张。

丁琰在其小红书帖子《2026具身数据基建战》中写道:“在模型之外,还有一个同样关键、且在后期更难整体调整的因素:数据从哪里来,以及以什么形态进入系统。”

他提到,“从长期看,真正昂贵的并不是采集一次数据,而是反复重建整套数据体系。”在这条逻辑下,UMI让能力扩展尽量发生在同一入口之上,数据基建保持相对稳定,系统能力逐步叠加。

从行业角度看,当越来越多真实操作数据被系统性采集和利用,具身智能才真正具备走出实验室和数采场、走向复杂现实世界的可能性。

而鹿明此次用万台背包版FastUMI Pro,把数据采集推向真实场景,本质上是在回答一个更底层的问题——当数据成为决定模型上限的关键变量,谁能够稳定构建真实世界的数据基础设施,谁就将在下一阶段的竞争中占据结构性优势。