还记得去年的「腾讯优图专场」吗?智东西公开课邀请到玮剑、太平和栋豪三位腾讯优图实验室的算法大牛,分别围绕3D人脸重建、人脸安全和时序动作分析等技术领域进行了直播讲解。三讲观看人次累计超过9000人次。

今年7月,智东西公开课教研团队全新策划「大厂讲坛」,将邀请国内科技/互联网大厂开设专区,围绕最新研究成果、核心技术、业务创新,持续带来多场直播讲解。腾讯优图实验室专区则是此次「大厂讲坛」的第一个系列性讲解,由AI技术教研组出品。目前,腾讯优图实验室专区进展喜人,已经确定下来六讲,将围绕优图实验室在弱监督目标定位、图文多模态、TNN、高效模型、3D人脸、人脸隐私训练及开源项目Tface这六个领域的重要研究成果进行讲解和交流。

7月19日晚7点,腾讯优图实验室高级研究员兴甲老师将以《弱监督目标定位的研究及应用》为题,率先带来「大厂讲坛」腾讯优图实验室专区第1讲的直播讲解。

基于全监督的目标检测方法需要耗费较大的标注成本,对于任务更新以及迁移极其不友好。而近年来相关研究者试图从弱监督学习方面突破标注数据的限制,为目标检测寻找一种更加高效、低廉的解决框架。

但自2014年MIT提出的类别响应图CAM,大多数的弱监督目标检测方法均从空间正则约束方面着手,虽然也提出了一系列方法提高网络的响应区域,使其能够覆盖目标的更多区域,但是这些工作均忽略了目标的结构信息,导致定位的准确度较低。

而在本次的课程中,兴甲老师首先会对弱监督目标定位在近几年已有的工作进行简单的介绍总结,包括CAM、ACoL,、DANet,、Rethinking CAM等10篇工作,之后详解优图实验室在弱监督目标定位方面的工作,包括:

(1)发表在CVPR 2021的工作:保持目标的结构是提高目标定位精度的关键。首先设计了受限激活模块缓解模型的结构信息弥失的问题,之后重新定义了高阶相似性的概念并基于此提出了自相关图生成模块用以挖掘目标结构信息,显著提高了目标定位精度。

(2)投稿到ICCV 2021的工作:基于Transformer的弱监督目标定位方法。挖掘目标的结构信息,关键在于提取长距离的特征相似性。相比卷积网络有限的感受野,Transformer网络中Self-attention机制保证网络具有全局感受野,并且因此可以获取长距离特征依赖。基于此,提出了一种基于Transformer的弱监督目标定位方法,通过耦合类别感知图与类别不可知的注意图,得到最终的定位结果,在各个数据集上也取得了很好的效果。

最后,兴甲老师也将讲解一下弱监督目标定位在图像内容审核上的简单应用,主要包括基于混合监督的目标检测方法,以及基于全局+局部特征的图像检索应用等。

兴甲目前是腾讯优图实验室高级研究员,主要研究领域为目标检测与图像检索,包括通用目标检测、旋转目标检测、弱监督/半监督目标检测以及图像检索等,负责图像内容审核领域的版权logo识别、同图检索等相关任务。他曾在CVPR、TIP、TVCG等国际顶级会议、期刊发表论文6篇,带队获得了ECCV2018 MVD 实例分割比赛冠军。

我们的课程将在智东西公开课知识店铺上以视频直播的形式进行,包含主讲和问答两个环节。主讲环节40分钟,问答环节20分钟,每个环节主讲老师都将通过视频直播的形式进行实时讲解与解答。

其他更多「大厂讲坛」腾讯优图实验室专区的课程信息我们也将陆续揭晓,大家敬请期待!