德克萨斯大学奥斯汀分校在读博士薛子慧：知识蒸馏在多模态和跨模态中的应用｜AI新青年讲座

「AI新青年讲座」将邀请世界顶尖AI研究机构和大学的科研新青年，主讲他们在计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑，将可以帮助大家增进对人工智能前沿研究的理解，相应领域的专业知识也能够得以积累加深。同时，通过与AI新青年的直接交流，大家在AI学习和应用AI的过程中遇到的问题，也能够尽快解决。

「AI新青年讲座」目前已完结195讲；有兴趣分享学术成果的朋友，可以与智东西公开课教研团队进行邮件（class@zhidx.com）联系。

多模态学习主要是研究包含不同模态数据的学习问题。常见的模态包括：视觉、文字、声音等。多模态学习的目的是增强模型的跨模态语义对齐能力，打通各个模态之间的关系，使得模型逐步标准化。目前，技术上的突出进展来自于 CLIP（匹配图像和文本）和 BEiT-3（通用多模态基础模型）。基于多领域知识，构建统一的、跨场景、多任务的多模态基础模型也已经成为人工智能的重点发展方向。那如何迁移多模态模型现有能力并降低训练成本呢？

知识蒸馏（knowledge distillation）是一种专注于从模型中提取知识的技术。如何从多模态模型蒸馏知识、以及蒸馏出知识能做什么是一个值得探讨的问题。多模态知识扩展（multimodal knowledge expansion，MKE），是一种无需标签就能有效利用多模态数据的方法。MKE基于知识蒸馏，可以将预训练好的单模态网络的知识传递给多模态网络，学生模型不仅能够去噪伪标签，而且能得到比教师模型更好的泛化效果。

跨模态知识蒸馏则将传统知识蒸馏扩展到多模态学习领域。为了实现模态之间的知识转移，采用一个模态的预训练网络作为教师，向另一个模态的学生网络提供监督信号。来自德克萨斯大学奥斯汀分校的在读博士薛子慧等人，在 ICLR 2023 上提出的最新成果中，探讨了跨模态知识蒸馏的工作机制，并提出模态维恩图（modality venn diagram）以了解多模态关系，并提出模态聚焦假说（modality focusing hypothesis），揭示了影响跨模态知识蒸馏的决定因素

2月24日早10点，AI新青年讲座第196讲邀请到德克萨斯大学奥斯汀分校在读博士薛子慧参与，主讲《知识蒸馏在多模态和跨模态中的应用》。

讲者
薛子慧，德克萨斯大学奥斯汀分校在读博士；师从kristen Grauman教授，目前是Meta AI的访问研究员；曾担任清华大学交叉研究院多模态学习实验室（MARS Lab）的助理研究员，研究方向为多模态学习（图像、音频、视频、语言等），相关研究成果发表在ICCV、CVPR、Neurips、ICLR等领域顶级会议上。

第196讲

主题
《知识蒸馏在多模态和跨模态中的应用》

提纲
1、知识蒸馏的应用
2、多模态知识扩展MKE
3、跨模态知识蒸馏工作机制探讨

直播信息
直播时间：2月24日10:00
直播地点：智东西公开课知识店铺

成果

论文标题
《MultimodalKnowledge Expansion》
《The ModalityFocusing Hypothesis: On the Blink of Multimodal Knowledge Distillation》

论文地址
https://openaccess.thecvf.com/content/ICCV2021/papers/Xue_Multimodal_Knowledge_Expansion_ICCV_2021_paper.pdf
https://arxiv.org/pdf/2206.06487

相关推荐