腾讯优图实验室专区第二讲：多模态图文内容的识别与定位

今年7月，智东西公开课教研团队全新策划「大厂讲坛」，将邀请国内科技/互联网大厂开设专区，围绕最新研究成果、核心技术、业务创新，持续带来多场直播讲解。腾讯优图实验室专区则是此次「大厂讲坛」的第一个系列性讲解，目前已经确定下来六讲，将围绕优图实验室在弱监督目标定位、图文多模态、TNN、高效模型、3D人脸、人脸隐私训练及开源项目Tface这六个领域的重要研究成果进行讲解和交流。

在7月19日腾讯优图实验室专区第一讲中，优图实验室研究员兴甲以《弱监督目标定位的研究及应用》为题，率先为我们讲解了优图实验室在弱监督目标定位方面的工作，包括了一篇发表在CVPR2021的工作：保持目标的结构是提高目标定位精度的关键，以及一篇投稿到ICCV2021的工作：基于Transformer的弱监督目标定位方法。（错过直播的朋友可以点击文章底部的“阅读原文”进行观看）

8月16日晚7点，腾讯优图实验室专区继续，将由优图实验室研究员志文参与到第2讲中的直播讲解中，主题为《多模态图文内容的识别与定位》。

深度学习在视觉领域上已经有了许多成功的应用。例如，人脸识别、物体分类与检测等。这些应用都是基于视觉领域这一单一模态进行的，然而我们的现实世界由多种模态的组合进行描述的，不仅视觉，还包含着听觉、语言文字等模态。仅仅通过单一模态，可能无法对事物类型进行合理判断。因此，越来越多的研究开始从多模态方面开展。

在本次课程中，志文老师首先会对今年的多模态方向内容进行简单介绍，包括多模态早期各类多模态融合方法，以及最近基于Transformer结构的多模态预训练模型，包括VL-Bert、Oscar等。

而后将详解优图在内容安全领域的一系列落地应用。比如在内容安全领域，有许多内容无法通过图像这一单一模态进行合理识别。早期的多模态研究思路，依靠研究如何进行更好的模型融合，实现1+1>2的效果。但是这种方式强烈依赖于数据量，且两种模态的特征难以对齐，无法实现合理的语义融合，使得模型可能出现1+1<2的结果。

因此，优图实验室的志文等人研究采用基于预训练方式的模型训练形式，即先利用大量无标注数据集进行模型预训练，而后利用预训练模型微调少量有标注图文数据。为了保证预训练模型速度他们又采用了相似度度量损失函数，最终实现在使用较少标注数据量下，获取较为有效的结果。同时，为了保证模型的效率，他们还采用了剪枝、蒸馏等各类方法，极大提升了模型速度。

最后，在多模态领域，除了多模态识别，志文老师也将深度讲解他们在图像描述及定位（Grounded Image Caption）的一些前沿工作。图像描述及定位指除为图像生成语句描述外，额外预测描述中包含的名词对应的目标在图像中的位置。而已有的工作主要通过正则化技术依靠注意力机制在生成图像描述的同时预测名词对应的目标的位置，但目前任务存在局部定位以及语音混淆的问题。

针对以上问题，志文老师等人提出一种弱监督图像描述及定位方法，并分别提出了两个对应模块：
（1）针对局部定位的问题，设计分布注意力聚合模块，挑选多个语义相同但位置不完全重合的目标之后进行聚合，从而得到更加完整的目标位置；
（2）针对语义混淆问题，提出跨层语义对齐模块，解决由于序列预测导致中间语义不明确，进而导致定位错误的问题。同时该工作目前已经中稿MM2021。

志文目前是腾讯优图实验室研究员，主要研究方向为内容安全审核领域识别检测算法，包括单一以及多模态内容识别、实体检测等。他负责内容审核领域中色情、违规等内容审核以及政治实体检测等相关任务，也曾在CVPR、MM、MICCAI等期刊发表相关研究成果。

直播课介绍

课程主题

《多模态图文内容的识别与定位》

课程提纲

1、多模态融合的研究进展
2、基于Transformer的多模态预训练模型
3、采取预训练方式的多模态内容安全识别
4、弱监督图像描述及定位的最新研究

讲师介绍

志文，腾讯优图实验室研究员；主要研究方向为内容安全审核领域识别检测算法，包括单一以及多模态内容识别、实体检测等；负责内容审核领域中色情、违规等内容审核以及政治实体检测等相关任务；曾在CVPR、MM、MICCAI等期刊发表相关研究成果。

直播信息

直播时间：8月16日19:00
直播地点：智东西公开课知识店铺

相关推荐