智东西(公众号:zhidxcom)
编译 |  陈骏达
编辑 |  Panken

智东西8月1日消息,7月15日,迪士尼公布了一篇16页的论文,详细介绍了他们新型双足机器人BD-X的主要设计和控制方法。这个机器人外形酷似《机器人总动员》里的“瓦力”,灵感源自于《星球大战》中的同名机器人。其硬件采用标准零件和3D打印外壳,腿部有5个自由度,通过强化学习掌握了动画人物的行走姿态,动作灵巧流畅,还锻炼出跨越复杂地形的能力

在不久前的IEEE活动上,这个迪士尼机器人还跟杭州宇树科技的机器狗面对面炫技斗舞。

迪士尼是怎么做双足机器人的?

▲迪士尼BD-X机器人与宇树Go2互动(图源:YouTube)

更早之前,它在今年3月的英伟达GTC大会上作为惊喜嘉宾压轴出场,与英伟达创始人兼CEO黄仁勋亲密互动,还摇头晃脑撒娇卖萌。

迪士尼是怎么做双足机器人的?

▲酷似瓦力的BD-X机器人与黄仁勋在GTC大会上互动(图源:英伟达)

这一机器人以娱乐为目的的设计理念极大降低了硬件复杂度与成本。但迪士尼为这台机器人加上了额外的扬声器、天线、头灯和眼睛,这让它能以更多的方式表现自己的“情绪”。

虽然BD-X看上去活灵活现,似乎真的能理解人们说的话,但其实它并不具备主动的感知和行为能力。它的一举一动都是通过人工操作实现的。这台机器人配备了来自英伟达的机载计算机Jetson,能将人类指令与训练时积累的经验结合,输出最终的行动指令。

迪士尼是怎么做双足机器人的?

▲论文首页截图(图源:迪士尼)

论文地址:https://la.disneyresearch.com/publication/design-and-control-of-a-bipedal-robotic-character/

一、机械设计简单有效,服务娱乐与创意目的

迪士尼在设计BD-X机器人时选择了与大多数企业都不同的路径。他们并不追求最好、最强大的机械设计,而是选择了能够满足创意和娱乐目的的简单设计。研究者成功集成了动画内容、设计、控制、实时操纵等元素,并用不到1年的时间实现了定制机器人角色的快速开发。

这一机器人主要使用了市面上的标准化零件,而外壳则是3D打印的,但经过软件调试后,仍然可以在降低硬件复杂度的前提下实现不错的表现。

迪士尼是怎么做双足机器人的?

▲迪士尼BD-X机器人设计图(图源:迪士尼)

这一双足机器人的总重为15.4公斤,高度为0.66米。每条腿上有5个自由度,而头部与颈部则有4个自由度。腿部的高自由度使得这一机器人能完成大幅度的动作,而头颈部的高自由度则让机器人可以通过动作表现各种妙趣横生、情感丰富的动作。

迪士尼是怎么做双足机器人的?

▲BD-X机器人在迪士尼乐园亮相,画面最右侧的二人为操作员(图源:YouTube)

迪士尼的工程师还通过巧妙的设计让机器人能在没有膝盖弯曲执行器的情况下,依赖与地面的接触实现逼真的膝盖弯曲效果。这一机器人配备一块微控制器驱动的通讯板,能以600赫兹的频率实现内置电脑、执行器和惯性测量单元之间的通讯。1块可拆卸电池为机器人供电,能维持至少1个小时的运转时间。

有趣的是,除了头部和躯干上配备的扬声器,这台机器人还有具备执行器的天线、能点亮的眼睛和一盏头灯。这些设备为机器人提供了更多表现情绪的方式,同时其控制和驱动都是相对独立的,因此可以选择是否搭载这些功能。

二、利用强化学习掌握动画动作,在英伟达Isaac Gym中模拟训练

为了给机器人动作提供一个清晰的框架,迪士尼的研究人员将机器人的动作分为以下3类。

1、持续性动作:没有明确的起点和终点。机器人保持平衡,并对测量到的状态和连续的控制输入流做出响应。

2、周期性运动:有一个周期性的相位信号传递给策略。在这种模式下,相位信号无限循环。

3、偶发性运动:有预定的持续时间。策略接收单调递增的相位信号,一旦运动结束,就会强制过渡到新的运动。

迪士尼是怎么做双足机器人的?

▲BD-X机器人的3种运动类型(图源:迪士尼)

机器人的控制策略是机器人学中的重要概念,指的是将机器人的状态映射为动作或电机命令的函数,使机器人能实现预期的行为和任务。

研究人员让BD-X机器人通过强化学习的方式掌握了多种控制策略,分别针对上述3种类型的动作。

根据机器人的CAD模型,迪士尼的研究人员构建出了这一机器人的准确物理形态、执行器和它与环境的互动,并通过英伟达的机器人训练平台Isaac Gym模拟出这一机器人的刚体动力学特征。研究人员还通过定制的执行器模型进一步模拟了这一机器人的完整动力学特征。

迪士尼是怎么做双足机器人的?

▲BD-X模拟训练系统(图源:迪士尼)

BD-X机器人的动作是根据动画内容学习的。迪士尼的研究人员提取了动画中人物的特定动作指标,如躯干的全局位置、关节的位置和矢量等信息,这些信息将用来训练这一BD-X机器人模仿动画中的动作。

在Isaac Gym的模拟训练中,机器人会收到强化学习系统的奖励和惩罚。这一系统会考虑动作与动画人物的相似度动作的规范程度(如有无关节扭曲、动作是否流畅)以及机器人是否生存(“死亡”被定义为头和躯干与地面接触,或头和躯干碰撞),并给出相应的奖惩。

训练过程中,系统还会模拟出随机的扰动、牵引力还有不同的地貌,这提升了机器人的鲁棒性(Robustness,指抗干扰性或稳定性)。

三、并无主动感知和行动能力,通过复杂控制器实现运动

迪士尼的研究人员称,在发布这篇论文时,BD-X机器人已经有过累计10小时的公开展示运行时间,在这10小时里这一机器人表现完美,一次都没有摔倒。许多观众都被这一机器人可爱的外表吸引,而未注意到这一机器人的操纵者。

实际上,BD-X机器人并无任何主动的行为和感知能力,其动作都是通过专业人员操纵一个复杂的控制器实现的。在运行期间,操作员可以使用直观的遥控互动界面控制这一机器人。这一操纵设备较为复杂,有2个摇杆、2块路径板,正反面总计有十几个按键。

迪士尼是怎么做双足机器人的?

▲BD-X通过控制器实现灵动的动作(图源:迪士尼)

在虚拟训练结束后,神经控制策略的权重被冻结,策略网络被部署到机器人的机载计算机Jetson上。部署后的控制策略和低层次控制器直接与机器人的硬件交互,还能融入惯性测量单元和执行器的测量数据。

机器人内置的动画引擎能自动将操作员输入的指令,与机器人内置的策略控制命令、展示功能信号(天线、眼睛、头灯的控制信号)和声音信号结合起来,为控制策略生成最终指令。

迪士尼是怎么做双足机器人的?

▲操作员在英伟达GTC 2024的后台调试BD-X机器人(图源:YouTube)

人工操纵指令和内置策略控制命令的结合能避免机器人出现训练过程中研究人员希望规避的动作,如摔倒、动作僵硬不流畅等等。

迪士尼是怎么做双足机器人的?

▲BD-X机器人展现出很强的鲁棒性,能在多种复杂地面情况下保持稳定(图源:迪士尼)

展示功能和音频是机器人的受控元素,在表现角色方面起着关键作用,但不会影响系统的动态。它们的行为通过动画引擎发出的动画信号和状态反馈与机器人的运动同步。

结语:AI让动画人物走进现实,“不实用”的机器人也有价值

其实迪士尼是机器人领域的资深玩家,从上世纪60年代以来他们就一直深耕机器人相关研究,并且在迪士尼乐园中尝试部署他们的研究成果,探索让动画人物走进现实世界的各种方式和场景。

迪士尼是怎么做双足机器人的?

▲迪士尼过去在机器人领域的相关研究(图源:迪士尼)

AI技术的发展让机器人的一举一动都更为逼真自然,而强化学习让专业动画师制作的人物动作在现实中落地。虽然BD-X机器人并不像其它双足机器人那样能进工厂、上流水线,但我们也乐见娱乐目的的机器人技术进一步发展,让普通人也能享受到机器人带来的快乐。

来源:迪士尼