「AI新青年讲座」将邀请世界顶尖AI研究机构和大学的科研新青年,主讲他们在计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑,将可以帮助大家增进对人工智能前沿研究的理解,相应领域的专业知识也能够得以积累加深。同时,通过与AI新青年的直接交流,大家在AI学习和应用AI的过程中遇到的问题,也能够尽快解决。

有兴趣分享学术成果的朋友,可以与智东西公开课教研团队进行邮件(class@zhidx.com)联系。

元宇宙概念的火热,让越来越多的研究者探索如何便捷地实现人与虚拟世界的交互。使用单目相机进行三维人体姿态估计很大程度上迎合了这一需求,然而目前大多方法都采用先检测再逐人估计的多阶段框架,其复杂性提升了落地时的成本。

为了克服这一问题,哈尔滨工业大学机器人研究所在读博士孙宇等人提出ROMP,这是一个单阶段算法,可以在1070Ti上搭载单个摄像头,实时估计多人三维人体网格。

为了适应实际场景中普遍存在的多人遮挡问题,不同于多阶段方法的检测框级的模糊表征,ROMP端到端地学习像素级别的明确表征。并且为了让模型进一步适应严重遮挡的情况,在表征学习的过程中融入了多人中心碰撞检测机制,促使模型学习更具有区分性的表征。

为了进一步提升ROMP对多人深度关系的感知能力,在今年的CVPR 2022中,孙宇博士等人将ROMP的二维表征升级为基于鸟瞰图的三维表征,提出了多人深度位置估计模型BEV,BEV突破了现有的只支持单一年龄段的三维人体姿态估计方法的局限性,实现对包括婴儿、儿童、青少年、成人在内的全年龄段的支持。

11月28日晚7点,「AI新青年讲座」第175讲邀请到哈尔滨工业大学机器人研究所在读博士孙宇参与,主讲《单目实时多人三维人体姿态及深度位置估计》。

讲 者

孙宇,哈尔滨工业大学机器人研究所在读博士
由王树国教授和付宜利教授指导,目前在京东探索研究院实习, 指导老师是刘武和鲍慊;主要研究基于单目相机的三维人体形态及位置估计,目前以一作身份于CVPR、ICCV上发表论文3篇。

主 题

单目实时多人三维人体姿态及深度位置估计

提 纲

1、单目三维人体姿态估计方法的局限
2、可适应遮挡的单阶段多人姿态估计算法
3、突破年龄限制的多人深度位置估计模型BEV
4、在虚拟形象驱动中的应用

直播信息

直播时间:11月28日19:00
直播地点:智东西公开课知识店铺

论文标题

《Human mesh recovery from monocular images via a skeleton-disentangled representation》
《Monocular, One-stage, Regression of Multiple 3D People》
《Putting people in their place: Monocular regression of 3d people in depth》
《Recent Advances in Monocular 2D and 3D Human Pose Estimation: A Deep Learning Perspective》

论文链接

https://arxiv.org/pdf/1908.07172.pdf
https://arxiv.org/pdf/2008.12272.pdf
https://arxiv.org/pdf/2112.08274.pdf
https://arxiv.org/pdf/2104.11536.pdf

开源代码

https://github.com/Arthur151/DSD-SATN 
https://github.com/Arthur151/ROMP