清华大学BBNC Lab在读博士王谷: 自监督单目6D物体姿态估计研究与算法解析 | 公开课预告

6D物体姿态估计,即从图像中估计出目标物体在三维空间中相对于相机的方位和朝向,是计算机视觉中的一个基础任务,其应用主要包括机器人抓取或者运动规划、自动驾驶以及VR/AR等。在各种应用中,物体的6D位姿估计是计算机视觉中一个基本且长期存在的难题。

在ECCV 2018会议上,来自清华大学的王谷博士团队提出了一种深度神经网络的6D位姿迭代匹配算法(DeepIM)。在给定初始位姿估计的情况下,网络能够通过将渲染图像与观察图像进行匹配来迭代地细化位姿。利用三维位置和三维方向的解耦表示和迭代训练过程,训练网络预测相对位姿变换,经实验表明,DeepIM比已有方法有很大提升,DeepIM的扩展工作被收录于IJCV 2019期刊。

单幅RGB图像的六自由度目标位姿估计是一项重要议题。在2019 ICCV会议上,王博团队提出了一种新的六自由度姿态估计方法:基于坐标的姿态解耦网络(CDPN),该方法将姿态解耦分别用于旋转预测和平移预测,以达到高精度且鲁棒的姿态估计。该方法灵活、高效、精度高,能够处理无纹理和有遮挡的物体,取得了基于RGB的方法最先进的性能。

单幅RGB图像的6D位姿估计也是一项具有挑战性的任务。当前主流的深度模型方法主要基于2D图像,这些6D位姿的标注数据收集相当麻烦和昂贵,甚至在很多情况下无法获得。在CVPR 2020会议中,王博团队摆脱6D标注的束缚,将6D位姿优化建模为马尔科夫决策过程,通过精细的奖励定义和复合强化优化方法进行高效有效的策略训练,并只使用二维图像标注作为弱监督6D位姿信息的强化学习方法,经LINEMOD和T-LESS数据集上的实验表明,该方法性能可以媲美或超过其他先进方法。

近年来,CNN在单目6D物体姿态估计领域取得了不错的效果,但是由于CNN对于数据需求量很大,而且获得6D物体姿态估计的真实标注的数据又非常耗时耗力。已有的方法提出利用大量合成数据训练CNN,然后应用到真实场景中,而这中间会有domain gap的问题,也有一些方法提出了利用生成对抗式网络(GANs)、feature mapping或者领域随机化(domain randomization)来解决这一问题,但是这些方法并不能充分地利用可容易获得的无标注真实数据,为了克服这一困难,在ECCV 2020会议上,王博团队提出《Self6D: 自监督的单目6D物体姿态估计》方法,通过利用可微分渲染器,将该问题建模为视觉和几何一致性的自监督约束问题,可有效地利用未标注的真实数据,取得比只利用合成数据或依赖于领域自适应等技术的方法更好的效果。

10月26日晚8点,智东西公开课邀请到清华大学在读博士王谷参与到「CV前沿讲座」第21讲,带来主题为《自监督单目6D物体姿态估计研究与算法解析》的直播讲解。王博将从6D物体姿态估计基础工作出发,然后介绍深度神经网络的6D位姿迭代匹配算法DeepIM和基于坐标的姿态解耦网络CDPN;最后详解自监督的单目6D物体姿态估计方法,有效地利用未标注的真实数据。感兴趣的朋友一定不要错过!

王谷是清华大学BBNC Lab在读博士,导师为季向阳教授。他的主要研究方向为基于深度学习的6D物体姿态估计,王博的研究成果曾发表于ECCV、ICCV、CVPR、IJCV等顶级会议和期刊。

课程内容
课程主题
《自监督单目6D物体姿态估计研究与算法解析》

课程提纲
1、单目6D物体姿态估计研究与挑战
2、一种六自由度目标位姿估计方法CDPN
3、DeepIM:6D位姿估计的深度迭代匹配算法
4、基于自监督的单目6D物体姿态估计算法详解

讲师介绍
王谷,清华大学BBNC Lab在读博士,导师为季向阳教授;主要研究方向为基于深度学习的6D物体姿态估计,其研究成果发表于ECCV、ICCV、CVPR、IJCV等顶级会议和期刊。

直播信息
直播时间:10月26日20:00
直播地点:智东西公开课小程序
答疑地址:「3D视觉讨论群」

加入讨论群
本次课程的讲解分为主讲和答疑两部分,主讲以视频直播形式,答疑将在「3D视觉讨论群」进行。
加入讨论群,除了可以免费收看直播之外,还能认识讲师,与更多同行和同学一起学习,并进行深度讨论。
扫码添加小助手糖糖(ID:hitang20)即可申请,备注“姓名-公司/学校/单位-职位/专业”的朋友将会优先审核通过哦~