清华大学在读博士张晋之:自监督大场景三维重建 | AI新青年讲座

「AI新青年讲座」将邀请世界顶尖AI研究机构和大学的科研新青年,主讲他们在计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑,将可以帮助大家增进对人工智能前沿研究的理解,相应领域的专业知识也能够得以积累加深。同时,通过与AI新青年的直接交流,大家在AI学习和应用AI的过程中遇到的问题,也能够尽快解决。

有兴趣分享学术成果的朋友,可以与智东西公开课教研团队进行邮件(class@zhidx.com)联系。

自监督多视图立体视觉(MVS)因可以从一组图像中学习密集表面预测且无需真实3D训练数据而引起越来越多的关注。然而现有的方法高度依赖于局部光度一致性,这使得无法在无纹理或反射区域中准确识别密集相关性。

为了解决上述问题,在NIPS 2022上,清华大学在读博士张晋之等人发现图像中隐含的几何邻近度(如表面连通性和遮挡边界)可以为像素级多视图对应估计提供可靠的指导,提出了一种新的弹性零件表示法,用弹性变化的尺度、形状和边界对物理连接的零件分割进行编码。

同时,张晋之博士还提出了一种自监督MVS框架ElasticMVS,来学习每个视图深度的表示和估计,并遵循部分感知传播和评估方案。具体来说,像素级部分表示通过基于对比学习的策略来训练,这增加了几何集中区域中的表示紧凑性,反之增加了对比度。并且基于从几何集中的零件提出一组深度假设,来迭代优化零件级一致性损失和表面平滑度损失。

广泛的实验表明,ElasticMVS在重建完整性和准确性等方面有很大的优势,且对于具有挑战性的大规模重建,ElasticMVS也优于监督和自监督方法,具有非凡的泛化能力。

12月26日晚7点,「AI新青年讲座」第185讲邀请到ElasticMVS一作、清华大学在读博士张晋之参与,主讲《自监督大场景三维重建》。

讲 者

张晋之,清华大学深圳伯克利学院在读博士;导师为清华大学电子系副教授方璐;主要研究方向为从多视角二维图像恢复户外三维大场景的几何与纹理信息,通过三维重建技术恢复历史遗迹与古建筑,以一作发表身份在TPAMI、NIPS、CVPR等发表多篇工作。

主 题

自监督大场景三维重建

提 纲

1、多视角三维重建技术研究进展
2、基于图像语义的三维重建实现难点
3、语义与重建联合优化学习的三维重建框架
4、提升完整度与精细度的大场景重建效果

直播信息

直播时间:12月26日 19:00
直播地点:智东西公开课知识店铺

成 果

ElasticMVS:《ElasticMVS: Learning elastic part representation for self-supervised multi-view stereopsis》
论文链接:https://openreview.net/pdf?id=lAN7mytwrIy