智东西(公众号:zhidxcom)
作者 |  程茜
编辑 |  心缘

稚晖君的人形机器人又双叒叕进化了!

智东西3月11日报道,今天,智元机器人正式发布最新全能探索机器人“团宠”——灵犀X2,智元机器人创始人兼CTO稚晖君称,X2集运动、交互、作业能力为一体,是第一台真正具备复杂交互能力的灵动机器人

X2体重33.8千克,全身28个自由度。灵犀X2的命名寄予了他们对机器人的憧憬:希望它既灵动又犀利。

稚晖君两年憋出机器人绝活:骑自行车、葡萄缝针,还能组“哪吒完全体”

这一新“团宠”集三大能力为一体:支持高自由度运动能力的双足人形机器人、搭载情感计算引擎的智能交互机器人、初步具备通用任务执行能力的具身机器人。

X2在运动方面,能骑平衡车、滑板车、自行车;交互方面,可以基于动作、视觉、语音模型和人类实时自然交流;作业能力方面,拥有简单任务的泛化能力。

值得一提的是,为了让机器人更像人,X2集成的多模态交互大模型硅光动语中的动作模块,还让其拥有了仿人的小动作,比如坐在椅子上晃脚、走路摆手等。

稚晖君两年憋出机器人绝活:骑自行车、葡萄缝针,还能组“哪吒完全体”

作为B站百万up主,这也是稚晖君时隔两年的首次重磅更新,他特意录制了12分10秒的视频将X2从里到外介绍了个清楚。X2的研发耗时三个月,这条视频准备时间长达一个月。

稚晖君视频B站播放量已超66万。评论区的网友,一边感慨看到了未来家用机器人的雏形、民用机器人真正实用发展方向,并预言这款机器人“已经可以大卖了”,另一边有人在感慨“这种机器人大规模发展了,人类该怎么办”。

稚晖君两年憋出机器人绝活:骑自行车、葡萄缝针,还能组“哪吒完全体”

一、像搭积木一样攒硬件系统,让机器人不再“钢筋铁骨”

研发人员在灵犀X2的本体设计上下足了功夫。

首先来看硬件系统,智元机器人的研发人员让其变得像搭积木一样简单。

他们将机器人的硬件系统抽象成一系列可复制的核心组件,包括小脑控制器Xyber-Edge、域控制器Xyber-DCU、智能电源管理系统Xyber-BMS、核心关节模组Powerflow。

稚晖君两年憋出机器人绝活:骑自行车、葡萄缝针,还能组“哪吒完全体”

就像无人机爱好者们通过集成飞行控制器这一核心组件,自主组装或定制具备高智能化、自动化功能的无人机系统,开发者也能用这些核心组件快速搭建起一套可靠的人形机器人系统,或者各种形态的人形机器人系统,甚至是稚晖君一直鸽的“哪吒完全体”。

稚晖君两年憋出机器人绝活:骑自行车、葡萄缝针,还能组“哪吒完全体”

其次是机体材料选择,与此前钢筋铁骨的机器人不同,X2皮肤软软的。

据透露,他们为X2尝试了TPU、ETPU、EVA等各种材料,这些材料通常被用于鞋底减震缓冲,甚至还尝试了美妆蛋,最终选定了亲和的柔性材料

稚晖君两年憋出机器人绝活:骑自行车、葡萄缝针,还能组“哪吒完全体”

二、全身关节仿人体串联结构,训练早期像小朋友学走路

让人形机器人能自如运动,需要灵活的身体和强大的运控算法。

X2的原型机全身自由度28个,在机电关节设计上采用串联结构,没有使用任何一个并联结构,能同时保证惯量上移和传动链完全解耦。

稚晖君两年憋出机器人绝活:骑自行车、葡萄缝针,还能组“哪吒完全体”

传统机器人常采用多连杆并联机构以增强刚度,但会增加机械耦合和控制难度。串联结构是类似于人类骨骼结构的关节设计,可以降低机器人的整体重量。

硬件拉满,运控算法也要全面突破。

当前足式机器人的运动控制从传统的model-based的方法转向强化学习,结合深度强化学习和模仿学习算法的优势,X2能像人一样走路、能跑、能转或者跳一点小舞。

X2在视频里跳起了短视频平台热门舞蹈“科目三”。

稚晖君两年憋出机器人绝活:骑自行车、葡萄缝针,还能组“哪吒完全体”

不过,X2前期的学习过程并不是一帆风顺,稚晖君说:“教育小朋友总是需要一些耐心。”

训练初期的X2学习跑偏实录如下:

莫名奇妙学到了抽象的走路方式,像螃蟹一样横着走、跳着往后蹦。

稚晖君两年憋出机器人绝活:骑自行车、葡萄缝针,还能组“哪吒完全体”

或者像小朋友一样一言不合躺地上耍赖。

稚晖君两年憋出机器人绝活:骑自行车、葡萄缝针,还能组“哪吒完全体”

甚至还有情绪激动 ,爱跺脚的机器人。

稚晖君两年憋出机器人绝活:骑自行车、葡萄缝针,还能组“哪吒完全体”

视频还展示了拿着塑料杠铃锻炼的X2。

稚晖君两年憋出机器人绝活:骑自行车、葡萄缝针,还能组“哪吒完全体”

最后,X2总算苦尽甘来,拥有了更强的运动智能水平——学会使用“懒人工具”。点满运动天赋的X2,学会了骑滑板车、平衡车。

稚晖君两年憋出机器人绝活:骑自行车、葡萄缝针,还能组“哪吒完全体”

甚至是难度更高的骑自行车:

稚晖君两年憋出机器人绝活:骑自行车、葡萄缝针,还能组“哪吒完全体”

这种数据驱动的算法范式,使得智能体能从每秒数万次的环境交互和动作数据中突破运动智能的瓶颈。

三、多模态交互大模型硅光动语,首台具备复杂交互能力灵动机器人

虽然X2四肢发达,但其头脑也并不简单。

研究人员为其开发了一套基于Diffusion的生成式动作引擎,让X2拥有了和人自然交互的能力。借助大语言模型,其为X2训练了定制的多模态交互大模型硅光动语,光就是视觉、动是动作、语是语音,稚晖君说,X2是第一台真正具备复杂交互能力的灵动机器人

通过边缘侧大脑端到端的模型架构以及大量工程优化,X2拥有毫秒级交互反应,能通过人类的面部表情和语音语调精准判断情感状态,并做出相应的回应。稚晖君演示了一个神奇的“自己”和自己对话的景象。X2使用稚晖君声音进行训练,和他谈论了看电影、掉河里该救谁的世纪难题等。

视频中,X2能自如聊天,接话时几乎没有延迟,讲话时手部还会有相应动作,在问到“这些问题有哪些是预先设置的”,X2给出了“完全随机”的回答。

基于多模态交互大模型硅光动语,X2可以通过视觉理解和认识世界。当稚晖君举起X2的胳膊放到机器人面前时,它准确识别出了自己的胳膊还有材质。

它还能准确说出手机上的时间、识别出万用表、读出包装盒上的使用说明书等。

硅光动语集成的动作模态,让X2有了“生命感”,它像人一样拥有了呼吸的韵律、好奇心、注意力机制,还会在走路时伴随一些仿人的小动作。

稚晖君两年憋出机器人绝活:骑自行车、葡萄缝针,还能组“哪吒完全体”

甚至在人机交互方面,X2还可以与用户进行远程裸眼3D交流。

稚晖君两年憋出机器人绝活:骑自行车、葡萄缝针,还能组“哪吒完全体”

目前,智元机器人正在完善X2的思维模型,结合硅光动语大模型,将Reaction-Agent作为情感计算引擎,未来赋予机器人更多情绪表达的能力。

四、简单任务能零样本泛化,让机器人入职“吉祥三保”

一个完美的机械伙伴,除了情绪价值,还需要泛化作业的能力。

研究人员将操作智能的能力迁移到X2上,其本体支持柔性阻抗控制,能装配包括灵巧手在内的末端。

稚晖君两年憋出机器人绝活:骑自行车、葡萄缝针,还能组“哪吒完全体”

X2完成精细操作也不在话下,再次上演了“葡萄穿针”。

稚晖君两年憋出机器人绝活:骑自行车、葡萄缝针,还能组“哪吒完全体”

具身智能方面,智元机器人开源了业界最大的具身真机和仿真数据集之一,提出RoboDual的大小脑系统架构以及基于ViLLA架构的基座大模型启元。

通过一脑多形的“启元”大模型,X2初步具备简单任务对操作物体的零样本泛化能力,例如从货架上取物品:

稚晖君两年憋出机器人绝活:骑自行车、葡萄缝针,还能组“哪吒完全体”

X2还能可在某些任务中实现多机协作,比如给同伴充电:

稚晖君两年憋出机器人绝活:骑自行车、葡萄缝针,还能组“哪吒完全体”

稚晖君谈道,这使得机器人的能力可以外溢到日常生活的方方面面实现机器人的“吉祥三保”,即保安、保姆、保洁,同步应用于教育、医疗等多个领域。

同时,灵犀X2采用轻量化设计,可模块化拓展,拥有完备的二次开发接口,以及预训练模型和“采-训-推”一站式方案,用户可根据需求自由探索,为康养、服务、家庭陪伴等各类场景打造应用,实现“人形机器人人人玩”。

结语:X2展现家用机器人的实用主义雏形

尽管从人形机器人的各项能力来看,X2并不是最顶尖的,但其展现出的已有能力正是未来人形机器人走入家庭,或者走入各行各业需要具备的基本能力。

不论从硬件系统、软件算法还是关节结构来看,智元机器人都考虑到了人形机器人大规模落地普及的趋势。

未来,基于人形机器人在运动、作业和交互方面的能力,或许可以在不同场景通过模块化设计,让人形机器人深入陪伴、教育、清洁等诸多场景。

稚晖君两年憋出机器人绝活:骑自行车、葡萄缝针,还能组“哪吒完全体”