智东西(公众号:zhidxcom)
作者 | 香草
编辑 | 心缘
智东西8月7日报道,昨晚,由微软OpenAI英伟达英特尔联手投资的明星机器人创企Figure,发布了新一代机器人Figure 02,再次颠覆我们对人形机器人的想象。
升级后的Figure 02不仅外形更像人,还在OpenAI多模态大模型的加持下,实现了与人类语音对话;拥有16个自由度的第四代手部灵活度大幅提升,可以实现更精细的操作,而特斯拉的擎天柱二代手部自由度为11个。
与第一代相比,Figure 02从外观设计、软硬件性能,到内置AI模型都进行了彻底的升级,主要体现在以下方面:6个板载相机、电池容量增加50%以上、3倍推理速度、第四代手部、语音到语音交互、内置VLM(视觉语言模型)。
▲Figure 02
Figure成立于2022年,截至目前共完成5轮融资,总额8.54亿美元(约合人民币61.08亿元),估值达到26亿美元(约合人民币185.88亿元)。其投资方包括微软、OpenAI、英伟达、英特尔、贝索斯等,涵盖了时下生成式AI热潮中的大模型、算力、投资公司等明星玩家,阵容十分亮眼。
今年2月,Figure宣布与OpenAI达成合作,将在OpenAI大模型的支持下开发下一代人形机器人模型,将其多模态模型扩展到机器人的感知、推理和交互中。Figure 02的语音到语音交互功能,便是其基于OpenAI为其定制大模型的最新尝试。
▲Figure 02在工厂中行走
Figure创始人兼CEO Brett Adcock称,Figure 02的续航可支持每天完成约20小时的有效工作,这有助于其进入劳动力市场和家庭。值得一提的是,Figure的初代机器人Figure 01已经在宝马工厂落地,在汽车制造过程中“自动执行困难、不安全且乏味的任务”。
从概念设计到落地,Figure 02仅用时18个月。Adcock还提到,团队将推动低成本、高效率地制造,预计明年开始批量生产。
一、推理能力提升3倍,每天可工作20小时
从外形上看,Figure 02比第一代酷炫了许多,布线不再裸露在外,看起来更加完整,外骨骼为其增添了现代感和科技感。不得不说,Figure 02现在看起来更像特斯拉的擎天柱了。
▲Figure 01(左)、Figure 02(中)和擎天柱二代(右)外形对比
在Figure 01的基础上,Figure对机器人的软硬件进行了彻底的重新设计,覆盖AI、计算机视觉、电池、电子设备、传感器和执行器等关键技术。
▲Figure 02
Figure 02在6个方面取得突破,包括语音交互、摄像头、手部、VLM(视觉语言模型)、电池、CPU/GPU。
具体来看,Figure 02通过定制AI模型驱动的板载麦克风和扬声器,以语音到语音的方式直接与人类对话。
它的头部、前躯干和后躯干共有6个板载RGB摄像头,通过AI驱动的视觉系统感知和理解物理世界,并在内置VLM的支持下进行快速常识性视觉推理。
▲Figure 02的6个摄像头
Figure 02采用Figure自研的第四代手,其具备16个自由度,且力量与人类等同。
▲Figure 02手部
Figure 02内置的电池容量为2.25 KWh,相比上一代增加了50%以上,据称每天能够完成约20小时的有效工作,这为人形机器人进入劳动力市场和家庭铺平了道路。
▲Figure 02在宝马工厂
模型推理方面,Figure 02板载的CPU/GPU提供比上一代高3倍的计算和推理能力,具备自我修正的学习能力。
▲Figure 02在宝马工厂
在外骨骼的加持下,Figure 02的重量相比上一代有所减轻,但由于增加了电池、摄像头、CPU/GPU等,净重量增加到约70kg。
▲Figure 02的外骨骼细节
二、历时18个月落地,预计明年开始量产
Figure创始人兼CEO Brett Adcock称,Figure 02在2023年2月完成概念设计,从概念到成品历时18个月。
Adcock解读了Figure 02在语音交互、布线等方面的技术原理。Figure 02的语音交互能力是基于OpenAI为其定制的大模型实现的。
▲语音到语音推理
在接收到语音后,模型首先将其转换为文字,同时,板载的VLM(视觉语言模型)基于摄像头捕捉到的图像和语音理解进行常识推理,然后基于推理控制机器人的行为,同时将输出文本转换为语音输出。
在布线方面,Figure 02采用集成电源和计算布线,并设计了定制的电线端子和连接器,从而隐藏电线,并实现更高的可靠性、更紧密的包装。
基于板载CPU和GPU,Figure 02能够运行最新的AI模型,其推理能力达到Figure 01的3倍,能够完全自主执行现实世界中的任务。
▲Figure 02的CPU和GPU
对于Figure 02的进步,不少行业大佬和网友纷纷发来贺电。
英伟达高级研究经理兼具身智能实验室负责人Jim Fan称:“恭喜Brett!制作高自由度灵巧手的决定绝对是正确的。”
▲Jim Fan评论
有的网友已经迫不及待地想看Figure 02和马斯克的擎天柱大战2024了。
▲网友评论
有的网友则迫切地想购买一台帮自己洗碗。
▲网友评论
同时,也不乏有一些质疑的声音出现。有网友问道:“他是否具备超级工厂的制造能力?他真的能在垂直整合方面做到精细到原子成本的程度吗?”
Adcock很坚定地回答:“是的。我将推动低成本、高效率制造,明年开始批量生产。”
▲Adcock回应成本问题
也有网友对Figure 02所谓的“世界上最先进的AI硬件”产生质疑,称擎天柱在7个月以前就已经做到这些了。
▲网友评论
有网友认为Figure 02的营销大于其真实进步:“这很酷,但灵活性显然不足。你浪费了很多时间展示平移,而本可以给我展示更多手部操作——这才是真正的诀窍,不是吗?它把零件冲压到位了?这是进步,但不值得你所营造的那种大肆宣传。”
▲网友评论
三、成立2年估值185亿,初代机器人已进宝马打工
Figure成立于2022年,其创始人Brett Adcock是一位连续创业者,其此前创立的两家公司分别实现IPO和以1亿美元被收购。
Figure致力于开发能够在仓储、零售、看护等不同环境中工作,并处理各种任务的通用人形机器人。
截至目前,Figure共完成5轮融资,融资总额达到8.54亿美元(约合人民币61.08亿元),估值26亿美元(约合人民币185.88亿元)。
▲Figure融资历程
去年10月,Figure发布第一款通用人形机器人Figure 01行走的视频,此时团队刚刚成立一年多,拥有60名工程师。
▲Figure 01行走
今年1月7日,Figure发布了一则Figure 01煮咖啡的视频,并强调其使用端到端的AI系统,仅通过观察人类煮咖啡,即可在10小时内完成训练。
▲Figure 01煮咖啡
1月18日,Figure宣布与宝马签署商业协议,机器人Figure 01将进入宝马工厂,在汽车制造过程中“自动执行困难、不安全且乏味的任务”。
2月,Figure获得6.75亿美元高额融资,一举跃升独角兽,投资方包括微软、OpenAI、英伟达、英特尔、贝索斯等,涵盖了时下生成式AI热潮中的大模型、算力、投资公司等明星玩家,阵容十分亮眼。
▲Figure官宣融资
同时,Figure宣布与OpenAI、微软达成合作,将与OpenAI合作开发下一代人形机器人模型,将其多模态模型扩展到机器人的感知、推理和交互中,并利用微软云进行AI基础设施构建、训练。
半个月后,Figure于3月13日发布了Figure 01在OpenAI大模型加持后的进展。
在2分半的视频中,Figure 01展示了如何描述自己眼前看到了什么,判断自己眼前看到的东西相互之间有什么关联,给饥饿的测试员找到桌子上唯一能吃的苹果并精准递过去,进行“回忆”并对自己做过的事情给出评价,用简单易懂的话语口头解释自己做事的缘由等高难度动作。
7月,Figure发布了一段视频,展示其机器人在宝马工厂训练的最新成果,其已经可以在生产车间上从事简单的抓取工作。
不得不说,仅看Figure 02此次发布的演示视频,我们并不能十分明确地感知到它相对于上一代实现的突破,也难怪不少网友感到失望。
结语:人形机器人赛道再添一把火
今年年初,人形机器人一度迎来爆发式开局。从斯坦福机器人大秀厨艺做大餐,到特斯拉擎天柱化身保姆叠衣服,再到两家创企的机器人比赛煮咖啡。除了Figure之外,另一家机器人企业1X也获得OpenAI等知名投资者的巨额投资支持。
半年多过去,人形机器人的热度有所退却,不过Figure 02的发布又为这个赛道添了一把火。Figure 02在软硬件诸多方面展现出了显著的升级与突破,但由于演示视频的局限性,也面临着网友的质疑与期待。
科技的进步从来不是一蹴而就,每一次的创新都伴随着挑战与争议。后续Figure能否不断优化Figure 02,交出更亮眼的答卷,特斯拉擎天柱等同类产品又能否实现新的突破,我们将持续关注。