通用视觉GPT之战打响!智源推出SegGPT,批量抠图神器来了

智东西(公众号:zhidxcom)
作者 | ZeR0
编辑 | 漠影

智东西4月8日报道,继ChatGPT掀起语言大模型狂潮后,本周,计算机视觉迎来了GPT时刻。先是周四Meta发布“分割一切”模型SAM,紧接着智源研究院视觉团队也推出通用分割模型SegGPT(Segment Everything In Context)

SegGPT可用于分割上下文中所有事物,是首个利用视觉提示(prompt)完成任意分割任务的通用视觉模型。SegGPT与SAM的差异在于 :

(1)SegGPT 一通百通”给出一个或几个示例图像和意图掩码,模型就能明白用户意图,“有样学样”地完成类似分割任务。用户在画面上标注识别一类物体,即可批量化识别分割同类物体,无论是在当前画面还是其他画面或视频环境中。

(2)SAM一触即通”通过一个点或边界框,在待预测图片上给出交互提示,识别分割画面上的指定物体。

无论是“一触即通”还是“一通百通”,都意味着视觉模型已经“理解”了图像结构。

SAM精细标注能力与SegGPT的通用分割标注能力相结合,能把任意图像从像素阵列解析为视觉结构单元,像生物视觉那样理解任意场景。

通用视觉GPT之战打响!智源推出SegGPT,批量抠图神器来了

论文地址:https://arxiv.org/abs/2304.03284

代码地址:https://github.com/baaivision/Painter

Demo:https://huggingface.co/spaces/BAAI/SegGPT

一、目标是分割一切物体,三大优势加持

SegGPT是智源通用视觉模型Painter的衍生模型,针对分割一切物体的目标做出优化。

训练完成后,无需微调,只需提供示例,SegGPT就能自动推理并完成对应分割任务。

具体来看,SegGPT模型具有以下优势能力:

1、通用能力SegGPT具有上下文推理能力,模型能够根据提供的分割示例(prompt),对预测进行自适应的调整,实现对“everything”的分割,包括实例、类别、零部件、轮廓、文本、人脸、医学图像等。

2、灵活推理能力支持任意数量的prompt;支持针对特定场景的tuned prompt;可以用不同颜色的mask表示不同目标,实现并行分割推理。

3、自动视频分割和追踪能力以第一帧图像和对应的物体掩码作为上下文示例,SegGPT能够自动对后续视频帧进行分割,并且可以用掩码的颜色作为物体的ID,实现自动追踪。

二、应用示例:批量“抠”出彩虹、行星环带

1、标注出一个画面中的彩虹,SegGPT就能批量化分割其他画面中的彩虹。

通用视觉GPT之战打响!智源推出SegGPT,批量抠图神器来了

2、研究人员在广泛的任务上对SegGPT进行了评估,包括少样本语义分割、视频对象分割、语义分割和全景分割。

下图中具体展示了SegGPT在实例、类别、零部件、轮廓、文本和任意形状物体上的分割结果。

通用视觉GPT之战打响!智源推出SegGPT,批量抠图神器来了

通用视觉GPT之战打响!智源推出SegGPT,批量抠图神器来了

3、用画笔大致圈出行星环带。

通用视觉GPT之战打响!智源推出SegGPT,批量抠图神器来了

SegGPT在预测图中准确输出目标图像中的行星环带。

通用视觉GPT之战打响!智源推出SegGPT,批量抠图神器来了

4、根据用户提供的宇航员头盔掩码这一上下文。

通用视觉GPT之战打响!智源推出SegGPT,批量抠图神器来了

SegGPT能够在新的图片中预测出对应的宇航员头盔区域。

通用视觉GPT之战打响!智源推出SegGPT,批量抠图神器来了

三、训练思路:定义为上下文着色问题,多项技术解锁分割能力

SegGPT将各种分割任务统一到一个通用的上下文学习框架中,通过将各类分割数据转换为相同格式的图像来统一各式各样的数据形式。

其训练被定义为一个上下文着色问题,每个数据样本都有随机的颜色映射,以根据上下文完成不同的任务,而非依赖于特定的颜色。

经训练,SegGPT可以通过上下文推理在图像或视频中执行任意分割任务,如物体实例、类别、零部件、轮廓、文本和任意形状物体等。

通用视觉GPT之战打响!智源推出SegGPT,批量抠图神器来了

如何通过test-time techniques解锁各种能力是通用模型的一大亮点。

SegGPT论文中提出了多个技术来解锁和增强各类分割能力,比如下图所示的不同的context ensemble方法。论文所提出的Feature Ensemble方法可以支持任意数量的prompt示例。

通用视觉GPT之战打响!智源推出SegGPT,批量抠图神器来了

此外,SegGPT还支持对特定场景优化专用prompt提示。对于针对性的使用场景,SegGPT可以通过prompt tuning得到对应prompt,无需更新模型参数来适用于特定场景。

比如,针对某一数据集自动构建一个对应的prompt,或者针对一个房间来构建专用prompt。如下图所示:

通用视觉GPT之战打响!智源推出SegGPT,批量抠图神器来了

结语:强大零样本场景迁移能力,经典CV数据集上取得最优性能

模型只需少数prompt示例,在COCO和PASCAL数据集上取得最优性能。

通用视觉GPT之战打响!智源推出SegGPT,批量抠图神器来了

通用视觉GPT之战打响!智源推出SegGPT,批量抠图神器来了SegGPT显示出强大的零样本场景迁移能力,比如在少样本语义分割测试集FSS-1000上,在无需训练的情况下取得state-of-the-art性能。

无需视频训练数据,SegGPT可直接进行视频物体分割,并取得和针对视频物体分割专门优化的模型相当的性能。

通用视觉GPT之战打响!智源推出SegGPT,批量抠图神器来了

以下是基于tuned prompt在语义分割和实例分割任务上的效果展示:

通用视觉GPT之战打响!智源推出SegGPT,批量抠图神器来了

通用视觉GPT之战打响!智源推出SegGPT,批量抠图神器来了

SegGPT在广泛的任务中进行了评估,包括少数照片的语义分割、视频物体分割、语义分割、全景分割。结果显示,在对域内和域外目标进行分割时,无论是质量还是数量都有很强的能力。

随着SAM和SegGPT两款图像分割基础模型的发布,通用视觉GPT曙光乍现。