「AI新青年讲座」将邀请世界顶尖AI研究机构和大学的科研新青年,主讲他们在计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑,将可以帮助大家增进对人工智能前沿研究的理解,相应领域的专业知识也能够得以积累加深。同时,通过与AI新青年的直接交流,大家在AI学习和应用AI的过程中遇到的问题,也能够尽快解决。

「AI新青年讲座」目前已完结215讲。有兴趣分享学术成果的朋友,可以与智东西公开课教研团队进行邮件(class@zhidx.com)联系。

图像分割模型在过去十年取得了巨大的成就,但传统分割模型只能分割训练数据集规定的类别。与此同时,人类是以语言作为基石来理解世界的。所以,如何通过语言来进行图像分割?

开放式词汇语义分割旨在根据文本描述将图像分割成语义区域,这些区域在训练期间可能没有被看到。而现有的两阶段方法首先生成类别不可知的掩膜提案,然后利用预训练的视觉-语言模型(例如 CLIP)对被掩膜的区域进行分类。然而这种方法的性能受限于预训练的 CLIP 模型。因为 CLIP 更适合以自然图像作为输入,而目前的方法以 masked proposal 作为输入会影响 CLIP 性能。

在 CVPR 2023 上,来自 Meta、UTAustin 的学者们联合提出了一种新的开放词汇分割模型 OVSeg。OVSeg 可以通过任意用户定义的词汇来理解分割图像,并且可以让 Segment Anything 模型知道所要分隔的类别。从效果上来看,OVSeg 可以与 Segment Anything 结合,完成细粒度的开放语言分割。

7月4日早10点,「AI新青年讲座」第216讲邀请到 OVSeg 一作、德克萨斯大学奥斯汀分校在读博士梁丰参与,主讲《大模型时代的图像分割——开放词汇分割模型 OVSeg》。

梁丰将从传统的二阶段开放词汇分割模型的基线出发,在理解基线方法局限的基础上深度讲解 OVSeg 。同时,他也会介绍 OVSeg 与其他模型的结合,比如Segment Anything(SAM),让SAM能够识别物体的类别。

讲者
梁丰,德克萨斯大学奥斯汀分校在读博士;主要研究方向为视觉语言模型以及高效机器学习,相关研究成果发表在CVPR、ICLR等顶级会议上。

第216讲

主 题
《大模型时代的图像分割——开放词汇分割模型 OVSeg》

提 纲
1、大模型时代的图像分割
2、基于语言的图像分割方法研究
3、开放词汇分割模型 OVSeg 解析
4、与 Segment Anything 结合的物体类别识别

直 播 信 息
直播时间:7月4日10:00
直播地点:智东西公开课知识店铺

成果
论文标题:《Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP》
论文地址:https://arxiv.org/abs/2210.04150
开源代码:https://github.com/facebookresearch/ov-seg
Demo试用:https://huggingface.co/spaces/facebook/ov-seg