德克萨斯大学奥斯汀分校在读博士薛子慧:知识蒸馏在多模态和跨模态中的应用|AI新青年讲座

「AI新青年讲座」将邀请世界顶尖AI研究机构和大学的科研新青年,主讲他们在计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑,将可以帮助大家增进对人工智能前沿研究的理解,相应领域的专业知识也能够得以积累加深。同时,通过与AI新青年的直接交流,大家在AI学习和应用AI的过程中遇到的问题,也能够尽快解决。

「AI新青年讲座」目前已完结195讲;有兴趣分享学术成果的朋友,可以与智东西公开课教研团队进行邮件(class@zhidx.com)联系。

多模态学习主要是研究包含不同模态数据的学习问题。常见的模态包括:视觉、文字、声音等。多模态学习的目的是增强模型的跨模态语义对齐能力,打通各个模态之间的关系,使得模型逐步标准化。目前,技术上的突出进展来自于 CLIP(匹配图像和文本)和 BEiT-3(通用多模态基础模型)。基于多领域知识,构建统一的、跨场景、多任务的多模态基础模型也已经成为人工智能的重点发展方向。那如何迁移多模态模型现有能力并降低训练成本呢?

知识蒸馏(knowledge distillation)是一种专注于从模型中提取知识的技术。如何从多模态模型蒸馏知识、以及蒸馏出知识能做什么是一个值得探讨的问题。多模态知识扩展(multimodal knowledge expansion,MKE),是一种无需标签就能有效利用多模态数据的方法。MKE基于知识蒸馏,可以将预训练好的单模态网络的知识传递给多模态网络,学生模型不仅能够去噪伪标签,而且能得到比教师模型更好的泛化效果。

跨模态知识蒸馏则将传统知识蒸馏扩展到多模态学习领域。为了实现模态之间的知识转移,采用一个模态的预训练网络作为教师,向另一个模态的学生网络提供监督信号。来自德克萨斯大学奥斯汀分校的在读博士薛子慧等人,在 ICLR 2023 上提出的最新成果中,探讨了跨模态知识蒸馏的工作机制,并提出模态维恩图(modality venn diagram)以了解多模态关系,并提出模态聚焦假说(modality focusing hypothesis),揭示了影响跨模态知识蒸馏的决定因素

2月24日早10点,AI新青年讲座第196讲邀请到德克萨斯大学奥斯汀分校在读博士薛子慧参与,主讲《知识蒸馏在多模态和跨模态中的应用》。

讲者
薛子慧,德克萨斯大学奥斯汀分校在读博士;师从kristen Grauman教授,目前是Meta AI的访问研究员;曾担任清华大学交叉研究院多模态学习实验室(MARS Lab)的助理研究员,研究方向为多模态学习(图像、音频、视频、语言等),相关研究成果发表在ICCV、CVPR、Neurips、ICLR等领域顶级会议上。

第196讲

主 题
《知识蒸馏在多模态和跨模态中的应用》

提 纲
1、知识蒸馏的应用
2、多模态知识扩展MKE
3、跨模态知识蒸馏工作机制探讨

直 播 信 息
直播时间:2月24日10:00
直播地点:智东西公开课知识店铺

成果

论文标题
《MultimodalKnowledge Expansion》
《The ModalityFocusing Hypothesis: On the Blink of Multimodal Knowledge Distillation》

论文地址
https://openaccess.thecvf.com/content/ICCV2021/papers/Xue_Multimodal_Knowledge_Expansion_ICCV_2021_paper.pdf
https://arxiv.org/pdf/2206.06487