香港城市大学在读博士叶舒泉:多模态新任务——三维场景问答3DQA | AI新青年讲座

「AI新青年讲座」将邀请世界顶尖AI研究机构和大学的科研新青年,主讲他们在计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑,将可以帮助大家增进对人工智能前沿研究的理解,相应领域的专业知识也能够得以积累加深。同时,通过与AI新青年的直接交流,大家在AI学习和应用AI的过程中遇到的问题,也能够尽快解决。

有兴趣分享学术成果的朋友,可以与智东西公开课教研团队进行邮件(class@zhidx.com)联系。

视觉问答(VQA)是近年来兴起的一个研究领域,可以应用到机器人交互、VR/AR、自动驾驶汽车导航等很多有趣的任务中。目前大部分研究成果都只集中在2D图像问答任务上,而很少扩展到三维场景中。这是因为三维场景问答对3D几何理解的要求明显更高,不仅需要了解外观,还要了解单个对象的几何结构,甚至不同对象之间的空间关系进行关联。

香港城市大学可视化计算实验室在读博士叶舒泉等人在最新的研究中,将VQA扩展到3DQA,使用几何编码器和外观编码器分别从点云和颜色点云中提取几何和外观信息,并依此提出了第一个基于Transformer的3D场景问答模型3DQA-TR。其中,几何编码器在考虑单个对象的几何特征的同时,还要明确地将坐标和尺度结合到空间嵌入中,以便对对象之间的空间关系进行建模,外观编码器获取对象的颜色信息,并在与颜色相关的问题上进行预训练。最后通过使用3D-L BERT执行几何编码器、外观编码器和语言标记器的融合以预测目标答案。

针对3DQA任务,目前学术界还没有相关的可用数据集,因此叶舒泉博士等人还收集了第一个面向3DQA任务的数据集ScanQA。它建立在真实世界的室内场景数据集ScanNet之上,可以自由改变视点并提出不同类型的问题,包含806个场景的5807个问题和28450个答案。通过在该数据集上的大量实验和分析证明,3DQA-TR相较于现有的VQA框架是有着明显优势的。

9月9日晚6点,「AI新青年讲座」第156讲邀请到3DQA-TR一作、香港城市大学可视化计算实验室在读博士叶舒泉参与,主讲《多模态新任务——三维场景问答3DQA》。

讲 者

叶舒泉,香港城市大学可视化计算实验室在读博士;师从廖菁教授,研究兴趣为计算机视觉、图形学、多模态,主要研究方向为3D点云与学习(元学习、噪声标签学习、多模态)的新任务,目前在ICCV、TVCG等会议和期刊上发表多篇学术论文。

主 题

《多模态新任务——三维场景问答3DQA》

提 纲

1、多模态三维场景问答任务
2、真实场景问答数据集ScanQA
3、基于Transformer的三维场景问答模型3DQA-TR
4、多种问答模型的有效性验证和前景思考

直播信息

直播时间:9月9日18:00
直播地点:智东西公开课知识店铺

成 果

3DQA-TR:《3D Question Answering》
论文链接:https://arxiv.org/pdf/2112.08359.pdf