机器人前瞻(公众号:robot_pro)
编译 | 周加琦
编辑 | 漠影
机器人前瞻6月26日报道,近日,BitRobot联合Hugging Face和宇树科技,正式发布了数据集HIW-500(Humanoids-in-the-Wild 500),这是在真实家庭环境采集、规模最大的开源人形机器人遥操作数据。
该数据集在东南亚12个不同的家庭中采集,包含超500小时的全身运动数据、23000个任务片段,总数据体量约10TB。数据集主要集中在长时序任务,包括房间导航、操控各种物品以及执行多步骤的活动,其中部分独立片段的时长超过八分钟,为研究人员提供了海量的真机数据资源。

▲HIW-500任务时长分布
当前,人形机器人的“大小脑”发展严重失衡。“小脑和本体”发展日趋成熟,已经能够稳定行走、跳舞、越障,但负责理解任务、规划决策、执行操作的 “大脑” 却发展缓慢。这一失衡已成为全球人形机器人产业亟待突破的共性难题,也是制约规模化落地应用的核心瓶颈。
该问题的根源在于机器人的“大脑”缺乏对真实物理世界的充分认知,而这背后是真机数据的严重不足。为此,BitRobot、Hugging Face和宇树三方携手,将数据采集从“实验室”搬到真实生活环境中,旨在解决人形机器人“数据荒”的问题。
BitRobot是一个致力于推动机器人研发的平台。该平台介绍,HIW-500数据集覆盖10多项核心家庭任务,每项任务都细分为数千次演示,并配有详细的子任务标注,让研究人员能够在不同的复杂度层级上训练和评估AI模型。
宇树作为机器人公司,提供硬件支持。此次采集数据集,宇树部署了多台Unitree G1,并搭载特定的传感器阵列。
头部视觉:Unitree G1搭载一个立体头部摄像头,以480p分辨率和30FPS的帧率采集RGB数据。
腕部视觉:双臂均配备红外(IR)立体腕部摄像头,以480p分辨率、30 FPS采集RGB和红外数据,有效减少操作过程中的视觉遮挡。
运动状态:该机器人有29个自由度,配备板载IMU和里程计进行状态追踪,完整记录机器人的运动轨迹。

▲Unitree G1执行清扫任务
Hugging Face是全球最大AI开源社区,负责HIW-500数据集的处理。以上采集的数据集物理体积庞大,对于设施有限的实验室来说,传输数据和训练模型时门槛较高。因此,Hugging Face的LeRobot团队将整个数据集重新编码为开源的LeRobot格式。
高效瘦身:该团队通过优化数据结构,成功将10TB压缩至2TB。
零损耗:机器人的运动轨迹、摄像头画面和任务标注保持一致,未损失任何数据细节。
开发更轻量:优化后的数据集存储占用大幅降低,传输、管理和模型训练都更加便捷。
目前,完整的数据集已在Hugging Face上发布,同时包含原生ROSbag和压缩后的LeRobot两种格式。此外,开发者可以在浏览器中使用LeRobot Visualizer来探索该数据集。

▲Hugging Face上的HIW-500数据集页
最后,对开发者而言,还有一点至关重要:Unitree G1已获得LeRobot库的原生支持。这意味着大家可以直接下载HIW-500数据集,在自有的Unitree G1实体上进行训练,该举措有效降低了真实家庭环境下自动化研究的门槛。