作为计算机视觉领域的一个重要研究方向,相比于二维图像,三维点云包含了更加丰富的几何、形状和结构信息,能为场景感知和理解提供更多可能性。但目前大多数点云研究集中在对静态点云的建模与理解,像点云分割、点云上采样、点云补全等,而对动态点云或点云视频的研究相对较少。

点云视频含有丰富的视觉信息,可以充分了解我们生活的3D世界。此外,由于点云视频比传统视频涵盖更多、更精确的人体几何位置坐标,所以点云视频为低能见度环境中的动作识别提供保障。因此,理解点云视频对于智能系统与世界交互非常重要。

目前,点云视频的建模与理解有两大挑战。首先,不同于有序、规则像素的图像,点云是无序、不规则的点集合。单帧点云的无序性使得获取到的点集在整个视频里出现的顺序无法做到一致。虽然可采用点追踪的方式来获取点的运动,但追踪本身就极具挑战,很难获得准确的轨迹,尤其对于较长的视频;其次,点云视频虽然在空间维度是无序不规则的,但在时间维度是规则有序的。在对点云视频进行建模与理解时,需要减少空间建模对时间建模的影响。

那如何解决这两大挑战呢?8月30日晚7点,智东西公开课特邀新加坡国立大学研究员范鹤鹤主讲《基于深度学习的三维点云视频建模与理解》,这是学术新青年讲座的第12讲。

在本次讲座中,范老师将从三维点云视频建模的背景与难点出发,详细分析局部建模的时空金字塔模型PSTNet和非局部建模的自注意力模型P4Transformer,这两个模型都可以有效的解决点云视频建模的两大挑战,最后探讨这两个模型在三维动作识别和四维语义分割上的应用。

范鹤鹤是新加坡国立大学研究员,博士毕业于悉尼科技大学。他主要从事深度学习、计算机视觉以及多媒体技术相关方面的研究,并在曾在ICLR、CVPR、ICCV等会议和期刊上发表多篇论文。

本次讲座将在智东西公开课知识社区进行,包含主讲和问答两个部分,其中主讲环节40分钟,问答环节20分钟。每个环节主讲老师都将通过视频直播进行实时讲解与互动。

课程主题

基于深度学习的三维点云视频建模与理解

课程提纲

1、三维点云视频建模的背景与挑战
2、基于局部建模的时空金字塔模型PSTNet
3、基于非局部建模的自注意力模型P4Transformer
4、在三维动作识别和四维语义分割上的应用

讲师介绍

范鹤鹤,新加坡国立大学研究员,博士毕业于悉尼科技大学;主要从事深度学习、计算机视觉以及多媒体技术相关方面的研究,曾在ICLR、CVPR、ICCV等会议和期刊上发表多篇论文。

直播信息

直播时间:8月30日晚7:00
直播地点:智东西公开课知识社区