近年来,以谷歌RT系列为代表的视觉-语言-控制模型(VLCM,Vision-Language-Control Model)受到广泛关注。VLCM 智能体可以通过视觉理解环境,并执行人类语言所描述的任意任务,展现出了极强的 zero-shot 泛化能力。
相较于语言模型(LM),只考虑单一语言模态,视觉-语言模型(VLM)需要考虑视觉和语言两个模态,而视觉-语言-控制模型(VLCM)则需要考虑视觉、语言和控制三个模态,在训练需要海量的示教数据。因此,数据的缺乏也是具身智能、机器人学习面临的最严重问题之一。
为了解决数据稀缺的问题,一个通用的解决方案是表征预训练。然而,训练这样的表征是非常困难的,因为对于机器人的决策而言,一个高度抽象的语言指令所描述的是一种动态的变化过程。所以,传统多模态表征预训练需要考虑的是语言和单帧图片的对齐,而具身智能中的多模态表征预训练需要解决语言和视频轨迹的对齐。
针对当前问题,清华大学AIR与商汤研究院等提出一种decision-centric的多模态表征预训练方法DecisionNCE,清华大学智能产业研究院(AIR)四年级博士生李健雄为论文一作。与DecisionNCE相关论文获评ICML 2024 MFM-EAI workshop杰出论文奖。
DecisionNCE可实现在数据稀缺场景下的高泛化、轻量级具身智能体学习。利用易获取的领域外数据学习高普适、可泛化的多模态表征及通用化奖励,以构建轻量级开放场景具身智能决策模型。该方法可使用大量易获取的领域外数据学习视觉序列-语言指令相匹配的通用表征,可跨域零样本泛化到下游机器人控制任务上。通过在实体机械臂多任务操作测试,该方法在任务执行成功率方面大幅高于现有前沿方案,达到了两倍的成功率。
此外,具身智能体在复杂场景的泛化能力始终是一个广受关注的研究方向,目前具身智能决策控制模型还是十分困难。为此,李健雄博士等研究人员利用多模态大模型出色的常识推理能力,引入了全新的基于指令引导的图像遮罩方法(IVM,Instruction Guided Visual Masking)。与IVM相关的论文获评ICML 2024 MFM-EAI workshop杰出论文奖。
IVM为解决多模态大模型在视觉定位及视觉-语言推理能力不足的问题提供了全新的解决方案。该篇成果构建了面向语言指令的高质量视觉遮罩数据集,并训练了一个强大的视觉遮罩模型,可有效提升具身智能机器人及多模态大模型在视觉推理方面的能力。在高难度的多模态问答测试任务V*bench中,该模型可将OpenAI最先进的闭源多模态大模型GPT4V的正确率提高35%,首次突破80%。
10月15日晚7点,智猩猩邀请到清华大学智能产业研究院(AIR)在读博士李健雄参与「智猩猩具身智能前沿讲座」第13讲,主讲《高泛化及样本高效的具身智能决策方法》。
讲者
李健雄
清华大学智能产业研究院(AIR)在读博士
主要研究方向是离线强化学习及其在具身智能中的应用,在人工智能顶级会议ICLR,NeurIPS,ICML中发表多篇论文,数篇论文被评选为Oral/Spotlight Presentation,曾获MFM-EAI Workshop@ICML 2024 Outstanding paper奖。担任ICLR, NeurIPS, ICML, AAAI, IJCAI审稿人。
第13讲
主 题
《高泛化及样本高效的具身智能决策方法》
提 纲
1、视觉-语言-控制模型(VLCM)面临的数据挑战
2、高泛化的具身多模态表征预训练方法DecisionNCE
3、基于视觉遮罩模型提升具身机器人视觉语言推理能力
4、在实物机械臂实验效果展示及分析
直 播 信 息
直播时间:10月15日19:00
成 果
论文标题
《DecisionNCE: Embodied Multimodal Representations via Implicit Preference 》
《Instruction-Guided Visual Masking》
《RoboMUTUAL: Robotic Multimodal Task Specifications via Unimodal Learning》
论文链接
https://arxiv.org/pdf/2402.18137
https://arxiv.org/pdf/2405.19783
项目地址
https://2toinf.github.io/DecisionNCE/
https://github.com/2toinf/IVM
入群申请
有讲座直播观看需求的朋友,可以添加小助手“莓莓”进行报名。已添加过“莓莓”的老朋友,可以给“莓莓”私信,发送“具身智能13”进行报名。对于通过报名的朋友,之后将邀请入群进行观看和交流。