机器人前瞻(公众号:robot_pro)
作者 | 许丽思
编辑 | 漠影
而数据正是决定机器人 “大脑” 进化速度的核心变量,但目前高质量、多模态、可复用的真机数据依然严重匮乏,难以支撑具身智能模型持续迭代优化。
虽然合成数据和UMI数据在预训练阶段有明显的规模化优势,但真正决定机器人能否跨越Sim2Real鸿沟、进入真实场景执行任务的,仍然是不可替代的真机数据。
针对行业真机数据稀缺等核心瓶颈,近日,首个具身智能开源数据集社区成立,正通过打通“采集—开源—交易”链路,尝试为具身智能搭建一套可持续运转的数据基础设施。
一、国内首个具身智能开源数据集社区成立,打造行业发展的公共底座
国内首个具身智能开源数据集社区成立由乐聚机器人牵头建设,集结了上海交通大学、哈尔滨工业大学、同济大学、蚂蚁灵波、宇树、具识智能、具脑磐石、库帕思、无问智行等,形成了产学研协同共建的初步版图。
该社区三大建设目标包括:开源高质量数据和工具链、打造开放共治的社区生态以及加速技术与产业深度融合。

过去具身智能行业在数据层面的推进,更多还是企业各自采集、各自训练,而国内首个具身智能开源数据集社区的出现,意味着这一赛道加快从零散探索走向体系化建设。
具身智能所依赖的数据基础设施,正从少数企业的内部能力,转变为支撑整个行业发展的公共底座。
二、数据集全平台下载量超百万次,定义高质量真机数据样本
如果说开源社区回答的是“高质量真机数据如何协同供给”,那么OpenLET数据集回答的则是“高质量的具身数据应该是什么样”。
乐聚此次还全球首发OpenLET“触觉灵巧操作+全身运动”数据集,这是一套全球首个融合触觉灵巧操作与全身高动态运动的数据集。
在灵巧操作层面,OpenLET引入6×12×10的指尖压力矩阵触觉阵列数据,还通过腕部三维力与三维力矩构成的六维力数据,实现精度±0.5%。在全身运动层面,这套数据集覆盖41个关节的精细控制信号。

据了解,乐聚LET数据集系列全平台总下载量突破100万次。LET数据集系列覆盖工业、商业、家庭三大领域,包含117种原子技能,累计开源超60000分钟数据。
对一个还处于早期的产业来说,超百万的下载量本身就是一种投票,开发者用实际行动表明:真机数据正是当下极为稀缺、刚需的核心资源。
结语:数据基础设施,正在重塑具身智能竞争
而数据基础设施的成熟程度,正在成为影响具身智能产业化速度和上限的关键变量。