机器人前瞻(公众号:robot_pro)
作者 |  许丽思
编辑 |  漠影

机器人前瞻3月13日报道,今天,谷歌DeepMind推出两个基于Gemini 2.0的机器人模型:一个是VLA模型Gemini Robotics,可以让机器人在未经特定训练的情况理解、执行新任务;一个是VL模型Gemini Robotics-ER,能够增强机器人对物理世界的理解,尤其是空间推理方面。

借鉴了Gemini 2.0的多模态理解能力,只需要用户发出一句语音指令,Gemini Robotics就能让机器人快速完成对环境的感知、理解以及任务执行等一系列流程,在环境交互、操作灵巧性方面也有大幅提升,在家庭、工厂等多个场景中表现出较强的适应性。

目前,谷歌DeepMind已在Gemini Robotics模型方面,和Apptronik、Agile Robots、Agility Robots、Boston Dynamics和Enchanted Tools等展开合作。

一、Gemini Robotics:适配多场景、本体,听懂人话、操作灵活

Gemini Robotics体现出四大特点:

1、通用性
依托于Gemini 2.0的世界理解能力,Gemini Robotics能够快速适应各种新环境、新对象以及多样化的指令。无论是在家庭、办公室还是工厂等不同场景下,Gemini Robotics都能迅速调整自身,应对各种未曾遇到的任务挑战。与其他VLA模型相比,Gemini Robotics在综合泛化基准上的性能平均增加了一倍多。

比如,Gemini Robotics可以让机器人完成打包餐盒、抓取像豌豆这样的细小物品、用海绵擦擦拭字迹等精细操作。

谷歌给机器人造大脑,一句话秒懂物理世界
2、交互性

利用Gemini 2.0的语言理解能力,Gemini Robotics能够理解并对不同语言表述的指令做出反应。该模型能够理解并回应比谷歌DeepMind之前的模型更广泛的一系列自然语言指令,并根据用户输入调整其行为。

用户要求“帮我把篮球扣进去篮筐中”,机器人听懂后快速找到相应物品,完成一场“桌面扣篮”。

谷歌给机器人造大脑,一句话秒懂物理世界

Gemini Robotics还会持续监测周围环境,检测环境或指令的变化,并相应地调整其动作,从而更好与人类在多种场景中进行协作。

让机器人将葡萄和香蕉放在同一个透明碗中,面对不断变换位置的碗,机器人可以准确找到目标。

谷歌给机器人造大脑,一句话秒懂物理世界

3、灵巧性
Gemini Robotics可以处理复杂的、需要精确操作的多步骤任务,比如折纸这种精细活。

谷歌给机器人造大脑,一句话秒懂物理世界

4、适应不同本体
Gemini Robotics能适应不同形态的机器人。其训练数据主要来源于双臂机器人平台ALOHA 2,但同样能够驾驭基于Franka机械臂的双臂平台等其他机器人形态。对于像Apptronik开发的人形机器人Apollo这样更为复杂的形态,Gemini Robotics也具备良好的适配性。

谷歌给机器人造大脑,一句话秒懂物理世界

二、Gemini Robotics-ER:重点关注空间推理

Gemini Robotics-ER,可以帮助机器人理解复杂、动态的物理世界,尤其是空间推理方面,并允许机器人专家将其与现有的低级控制器连接。

Gemini Robotics-ER大幅提升了Gemini 2.0现有的能力,比如精确指向和三维检测。通过结合空间推理和Gemini的编码能力,Gemini Robotics-ER可以即时赋予机器人全新能力。例如当展示一个机器人没见过的咖啡杯时,该模型可以直观地判断出用两指抓住手柄的合适方式,以及接近它的安全轨迹。

Gemini Robotics-ER能够执行控制机器人所需的所有步骤,包括感知、状态估计、空间理解、规划和代码生成。在这样的端到端设置中,该模型的成功率比Gemini 2.0高出2到3倍。在代码生成不足以解决问题的地方,Gemini Robotics-ER甚至可以利用上下文学习的能力,按照少量人类演示的模式来提供解决方案。

谷歌给机器人造大脑,一句话秒懂物理世界

▲Gemini Robotics-ER 擅长具身推理能力,包括检测物体和指向物体部位、查找相应的点和检测3D物体

在安全性方面,谷歌DeepMind正在开发一种“分层方法”,且Gemini Robotics-ER可以与针对每个具身形式的“低级”安全关键控制器连接。在Gemini的核心安全功能基础上,研发团队使Gemini Robotics-ER模型能够理解在给定上下文中潜在动作是否安全执行,并生成适当的响应。

谷歌DeepMind还发布了一个新的数据集,用于评估和提高人工智能和具身智能机器人技术中的语义安全,以及开发了一个新框架来引导机器人的行为。

结语:Gemini Robotics迈出了走向通用机器人的重要一步

多模态大模型在AI领域已经展现出卓越的通用能力,而要将这种能力转化应用到机器人这样的物理智能体上,依旧是一个巨大挑战。

谷歌DeepMind这次所发布的Gemini Robotics系列模型,针对机器人在物理世界的通用能力上等方面有了较大提升,也意味着在开发通用具身智能机器人的道路上迈出了重大一步。

不过团队也提到,由于Gemini 2.0在难以处理长视频中的空间关系,它的数值预测(如点和边界框)对于更精细的机器人控制任务来说可能不够精确。后续,团队还需要增强模型处理需要多步骤推理、精巧操作的复杂场景的能力,以及推进实现零样本跨实体形态迁移,让模型能够立即将其技能泛化到新的机器人平台上。