ICML’24研讨会杰出论文奖！清华AIR&商汤研究院提出全新的具身多模态表征预训练方法

近年来，以谷歌RT系列为代表的视觉-语言-控制模型（VLCM，Vision-Language-Control Model）受到广泛关注。VLCM 智能体可以通过视觉理解环境，并执行人类语言所描述的任意任务，展现出了极强的 zero-shot 泛化能力。

相较于语言模型（LM），只考虑单一语言模态，视觉-语言模型（VLM）需要考虑视觉和语言两个模态，而视觉-语言-控制模型（VLCM）则需要考虑视觉、语言和控制三个模态，在训练需要海量的示教数据。因此，数据的缺乏也是具身智能、机器人学习面临的最严重问题之一。

为了解决数据稀缺的问题，一个通用的解决方案是表征预训练。然而，训练这样的表征是非常困难的，因为对于机器人的决策而言，一个高度抽象的语言指令所描述的是一种动态的变化过程。所以，传统多模态表征预训练需要考虑的是语言和单帧图片的对齐，而具身智能中的多模态表征预训练需要解决语言和视频轨迹的对齐。

针对当前问题，清华大学AIR与商汤研究院等提出一种decision-centric的多模态表征预训练方法DecisionNCE，清华大学智能产业研究院（AIR）四年级博士生李健雄为论文一作。与DecisionNCE相关论文获评ICML 2024 MFM-EAI workshop杰出论文奖。

ICML’24研讨会杰出论文奖！清华AIR&商汤研究院提出全新的具身多模态表征预训练方法 | 讲座预告

DecisionNCE可实现在数据稀缺场景下的高泛化、轻量级具身智能体学习。利用易获取的领域外数据学习高普适、可泛化的多模态表征及通用化奖励，以构建轻量级开放场景具身智能决策模型。该方法可使用大量易获取的领域外数据学习视觉序列-语言指令相匹配的通用表征，可跨域零样本泛化到下游机器人控制任务上。通过在实体机械臂多任务操作测试，该方法在任务执行成功率方面大幅高于现有前沿方案，达到了两倍的成功率。

此外，具身智能体在复杂场景的泛化能力始终是一个广受关注的研究方向，目前具身智能决策控制模型还是十分困难。为此，李健雄博士等研究人员利用多模态大模型出色的常识推理能力，引入了全新的基于指令引导的图像遮罩方法（IVM，Instruction Guided Visual Masking）。与IVM相关的论文获评ICML 2024 MFM-EAI workshop杰出论文奖。

ICML’24研讨会杰出论文奖！清华AIR&商汤研究院提出全新的具身多模态表征预训练方法 | 讲座预告

IVM为解决多模态大模型在视觉定位及视觉-语言推理能力不足的问题提供了全新的解决方案。该篇成果构建了面向语言指令的高质量视觉遮罩数据集，并训练了一个强大的视觉遮罩模型，可有效提升具身智能机器人及多模态大模型在视觉推理方面的能力。在高难度的多模态问答测试任务V*bench中，该模型可将OpenAI最先进的闭源多模态大模型GPT4V的正确率提高35%，首次突破80%。

ICML’24研讨会杰出论文奖！清华AIR&商汤研究院提出全新的具身多模态表征预训练方法 | 讲座预告

10月15日晚7点，智猩猩邀请到清华大学智能产业研究院（AIR）在读博士李健雄参与「智猩猩具身智能前沿讲座」第13讲，主讲《高泛化及样本高效的具身智能决策方法》。

讲者

李健雄

清华大学智能产业研究院(AIR)在读博士

主要研究方向是离线强化学习及其在具身智能中的应用，在人工智能顶级会议ICLR，NeurIPS，ICML中发表多篇论文，数篇论文被评选为Oral/Spotlight Presentation，曾获MFM-EAI Workshop@ICML 2024 Outstanding paper奖。担任ICLR, NeurIPS, ICML, AAAI, IJCAI审稿人。

第13讲

主题

《高泛化及样本高效的具身智能决策方法》

提纲

1、视觉-语言-控制模型（VLCM）面临的数据挑战
2、高泛化的具身多模态表征预训练方法DecisionNCE
3、基于视觉遮罩模型提升具身机器人视觉语言推理能力
4、在实物机械臂实验效果展示及分析

直播信息

直播时间：10月15日19:00

成果

论文标题

《DecisionNCE: Embodied Multimodal Representations via Implicit Preference 》

《Instruction-Guided Visual Masking》

《RoboMUTUAL: Robotic Multimodal Task Specifications via Unimodal Learning》

论文链接

https://arxiv.org/pdf/2402.18137

https://arxiv.org/pdf/2405.19783

项目地址

https://2toinf.github.io/DecisionNCE/

https://github.com/2toinf/IVM

入群申请

有讲座直播观看需求的朋友，可以添加小助手“莓莓”进行报名。已添加过“莓莓”的老朋友，可以给“莓莓”私信，发送“具身智能13”进行报名。对于通过报名的朋友，之后将邀请入群进行观看和交流。

ICML’24研讨会杰出论文奖！清华AIR&商汤研究院提出全新的具身多模态表征预训练方法 | 讲座预告

相关推荐