CV前沿讲座,是智东西公开课针对计算机视觉推出的一档讲座,聚焦于计算机视觉前沿领域研究成果与进展。我们将持续邀请研究者、专家与资深开发者,为大家带来直播讲解。
目标检测虽然是计算机视觉领域中的一项基本任务,但因为其大量的应用需求而一直受到研究者们的关注。如何设计更高性能的网络结构、如何提升现有检测模型的性能成为了研究者们研究的热点。
单阶段目标检测的基本任务是分类与定位。分类任务通常会使用Focal Loss函数进行优化,而位置回归通常是在一个狄拉克分布上进行学习。同时大家也通过在单阶段检测器上额外添加一个分支用来评估位置回归的质量优劣。比如在FCOS中,模型除了预测目标分类和位置回归,还有一个center-ness分支用户评估监测点是否在bbox中心。因此网络最终输出就是三个representation:分类表示、检测框表示和检测框的质量估计。
在NeurIPs 2020中,来自南京理工大学的李翔博士,针对现有representation中出现的两个问题:1)classification score和center-ness score在训练和推断时不一致;2)bbox regression采用的representation不够灵活(单一狄拉克分布),无法建模复杂场景,提出了一种新的respresentations-GFL(Generalized Focal Loss)。
什么是GFL?一句话总结就是:基于任意one-stage 检测器上,调整框本身与框质量估计的表示,同时用泛化版本的GFocal Loss训练该改进的表示,无cost涨点(一般1个点出头)AP。这还只是GFL的第一个版本,在GFLV2中,作者首次引入用边界框的不确定性的统计量来高效地指导检测领域中的定位质量估计,从而实现基本无cost(包括在训练和测试阶段)地提升one-stage的检测器性能,涨幅在1~2个点AP。是一项非常良心的技术。
12月2日晚8点,智东西公开课邀请到GFL一作、南京理工大学博士李翔参与到「CV前沿讲座」第24讲,带来主题为《单阶段目标检测器的高效表示学习》的直播讲解。李翔博士将会从单阶段目标检测的定义出发,并对现有表示学习存在的问题进行分析,最后深度解析GFLV1与GFLV2的设计思路与应用。
李翔是南京理工大学博士,导师为杨健教授,入选2020年度博士后创新人才计划。他曾是商汤科技研究院、微软亚洲研究院实习生、Momenta访问学者。他的团队曾获得阿里巴巴天池首届大数据竞赛冠军(7186支团队中排名第一),滴滴首届大数据算法竞赛冠军(7664支团队中排名第一),并以第一或共同第一作者身份发表CVPR、NeurIPs、AAAI、IJCAI、T-ITS等10余篇论文,谷歌Scholar citation 760+,代表作有选择性核网络(SKNets)、Generalized Focal Loss (GFL)和“Understanding the Disharmony”系列。
课程内容
课程主题
《单阶段目标检测器的高效表示学习》
课程提纲
1、单阶段目标检测的定义与现有表示学习存在的问题
2、GFLV1:对于分类、回归表示学习的高效改进及优化
3、GFLV2:对于质量估计表示学习的高效改进
讲师介绍
李翔,南京理工大学博士,导师为杨健教授,入选2020年度博士后创新人才计划;曾是商汤科技研究院、微软亚洲研究院实习生、Momenta访问学者。他的团队曾获得阿里巴巴天池首届大数据竞赛冠军(7186支团队中排名第一),滴滴首届大数据算法竞赛冠军(7664支团队中排名第一);以第一或共同第一作者身份发表CVPR、NeurIPs、AAAI、IJCAI、T-ITS等10余篇论文,谷歌Scholar citation 760+;代表作有选择性核网络(SKNets)、Generalized Focal Loss (GFL)和“Understanding the Disharmony”系列。
直播信息
直播时间:12月2日20:00
直播地点:智东西公开课小程序
加入讨论群
加入讨论群,除了可以免费收看直播之外,还能认识讲师,与更多同行和同学一起学习,并进行深度讨论。
添加小助手小开(ID:hikai19)即可申请,备注“姓名-公司/学校/单位-职位/专业”的朋友将会优先审核通过哦~