机器人前瞻(公众号:robot_pro)
作者 |  许丽思
编辑 |  漠影

机器人前瞻2月21日报道,近日,微软研究院发布了一个多模态AI模型——Magma。Magma是首个能够在其所处环境中理解多模态输入并将其与实际情况相联系的基础模型,只要提供一个描述性目标,Magma就能够制定计划、执行行动以达成该目标。

Magma以视觉语言(VL)模型为基础,除了保留传统的语言和视觉的理解能力(语言智能)外,还解锁了空间智能的新技能,能够从多模态输入(用户界面截图、机器人图像、教学视频)中理解对象的物理位置、动作的时序逻辑,并在不同环境(数字界面与物理世界)中完成连贯的任务。

值得一提的是,论文的作者中,13位有12位应该是华人。中美AI、机器人竞赛的背后,果然还是在美华人和在华中国人之间的较量。

比 GPT-4o 还牛?微软推出多模态模型,机器人秒变收纳高手

Magma 采用了深度学习架构和大规模预训练相结合的方法,该模型使用 ConvNeXt-XXL 视觉骨干处理图像和视频,同时使用 LLaMA-3-8B 语言模型处理文本输入。
Magma 是通过一个包含3900万个样本的多样化数据集进行训练的,其中包括图像、视频和机器人动作轨迹。
这个模型还创新采用了两项技术:“可标记集”(Set-of-Mark,SoM)和 “轨迹标记”(Trace-of-Mark,ToM)。前者使模型能够标记 UI 环境中的可操作视觉对象,后者则使其能够追踪物体随时间的移动,提升未来行动的规划能力。

比 GPT-4o 还牛?微软推出多模态模型,机器人秒变收纳高手

研究团队对包括ChatGPT在内的多个模型进行了零样本评估,结果显示,经过预训练的Magma模型在未进行任何特定领域微调情况下,是唯一一款能够执行全范围任务的模型。

比 GPT-4o 还牛?微软推出多模态模型,机器人秒变收纳高手

将Magma和OpenVLA这两个模型应用到WidowX机械臂上,当让机械臂组装桌面上的热狗模型、把蘑菇模型放到盆中、把桌子上的抹布从左边移动至右边时,Magma可以让机械臂比较精确地完成任务,而OpenVLA则在物体抓取、移动上表现略逊色于前者。

Magma应用到WidowX机械臂并经过少样本的微调后,在分布内和分布外泛化任务中,都有着可靠的性能表现。

比 GPT-4o 还牛?微软推出多模态模型,机器人秒变收纳高手 比 GPT-4o 还牛?微软推出多模态模型,机器人秒变收纳高手 比 GPT-4o 还牛?微软推出多模态模型,机器人秒变收纳高手

在LIBERO平台上进行的少样本微调,Magma在所有任务组中都取得了更高的平均成功率。

比 GPT-4o 还牛?微软推出多模态模型,机器人秒变收纳高手

在Google Robots和Bridge上进行的零样本评估中,Magma模型也展现出了较强的零样本跨域鲁棒性,并在抓取多种不同物品等跨实体操作模拟任务中取得了不错成绩。

比 GPT-4o 还牛?微软推出多模态模型,机器人秒变收纳高手

处理一些比较有挑战性的空间推理难题时,虽然Magma的预训练数据比GPT-4o少得多,但是也可以准确地进行回答。

比 GPT-4o 还牛?微软推出多模态模型,机器人秒变收纳高手 比 GPT-4o 还牛?微软推出多模态模型,机器人秒变收纳高手

针对多模态理解方面,Magma的表现甚至超越了Video-Llama2和ShareGPT4Video。比如,当给Magma提供一段视频时,看到有人拿起茶包,它能秒猜下一步要倒热水泡茶。

比 GPT-4o 还牛?微软推出多模态模型,机器人秒变收纳高手

Magma成功整合了视觉、语言和行动,在机器人任务操作上表现出了较高的泛化能力。未来,随着模型研究的不断深入及模型规模的扩展,Magma也有望为解决更复杂的机器人操作问题提供不错的解决方案,让机器人距离真正的落地应用更进一步。

参考链接:

https://www.arxiv.org/pdf/2502.13130