国产多模态大模型狂飙！颜水成挂帅开源Vitron，破解图像/视频模型割裂问题

智东西（公众号：zhidxcom）
编辑 | ZeR0

奔向通用人工智能，大模型又迈出一大步。

智东西4月25日报道，近日，由颜水成教授带队，昆仑万维2050全球研究院、新加坡国立大学、新加坡南洋理工大学团队联合发布并开源了Vitron通用像素级视觉多模态大语言模型。

Vitron解决了困扰大语言模型产业已久的图像/视频模型割裂问题，支持从视觉理解到视觉生成、从低层次到高层次的一系列视觉任务，包括静态图像和动态视频内容进行全面的理解、生成、分割和编辑等任务，能处理复杂的视觉任务，擅长视觉理解和任务执行，同时支持与用户的连续操作，实现了灵活的人机互动。

论文链接：https://is.gd/aGu0VV
开源代码：https://github.com/SkyworkAI/Vitron

该模型在四大视觉相关任务的功能支持及其关键优势如下：

这展示了通向更统一的视觉多模态通用模型的巨大潜力，为下一代通用视觉大模型的终极形态奠定了基础。

一、应对视觉任务关键挑战，提出大一统的多模态大语言模型

构建更通用、更强大的多模态大语言模型（MLLM）被视作通向通用人工智能（AGI）的必经之路。

通过引入能进行视觉感知的模块，扩展纯语言基础大语言模型（LLM）至MLLM，近年来有很多擅长图像理解的研究成果冒出，比如如BLIP-2、LLaVA、MiniGPT-4等。专注于视频理解的MLLM也陆续面世，包括VideoChat、Video-LLaMA和Video-LLaVA等等。

研究人员主要从两个维度试图进一步扩展MLLM的能力。

一是尝试深化MLLMs对视觉的理解。从粗略的实例级理解过渡到对图像的像素级细粒度理解，从而实现视觉区域定位能力，如GLaMM、PixelLM、NExT-Chat和MiniGPT-v2等。

二是尝试扩展MLLM可以支持的视觉功能。部分研究已经开始研究让MLLM不仅理解输入视觉信号，还能支持生成输出视觉内容。比如，GILL、Emu等模型能够灵活生成图像内容，GPT4Video、NExT-GPT实现了视频生成。

当前AI社区认为视觉MLLMs必然会朝着高度统一、能力更强的方向发展。

这条路存在一些关键挑战。比如很大一部分工作都没有实现细粒度像素级别的视觉理解，或者缺乏对图像和视频的统一支持，或者对于各种视觉任务的支持不充分，离通用大模型相差甚远。

下表简单归纳了现有部分视觉MLLM模型的能力：

研究人员认为，未来MLLM应该是一个通用大语言模型，能覆盖更广泛的视觉任务和操作范围，实现对所有视觉相关任务的统一支持，达到“one for all”的能力。这对实际应用尤其是在经常涉及一系列迭代和交互操作的视觉创作中至关重要。

例如，用户通常首先从文本开始，通过文生图，将一个想法转化为视觉内容；然后通过进一步的细粒度图像编辑来完善初始想法，添加更多细节；接着通过图像生成视频来创建动态内容；最后进行几轮迭代交互，如视频编辑，完善创作。

为了弥补上述差距，研究团队提出一种通用的像素级视觉MLLM——Vitron。

二、Vitron系统架构包含三大模块，模型训练有三个阶段

Vitron采用了与现有相关MLLM相似的架构，包括三个关键部分：1) 前端视觉&语言编码模块；2) 中心LLM理解和文本生成模块；3) 后端用户响应和模块调用以进行视觉操控模块。

▲Vitron整体框架

前端模块：视觉-语言编码。为了感知图像和视频模态信号并支持细粒度用户视觉输入，集成了图像编码器、视频编码器、区域框/草图编码器。
中心模块：核心LLM。采用Vicuna（7B，1.5）来实现理解、推理、决策制定和多轮用户交互。
后端模块：用户响应与模块调用。采用以文本为中心的调用策略，整合现成的几个强大先进（SoTA）的图像和视频处理模块，用于解码和执行从低层到高层的一系列视觉终端任务。通过采用以文本为中心的模块集成调用方法，不仅实现了系统统一，还确保了对齐效率和系统可扩展性。

基于上述架构，再对Vitron进行训练微调，实现更强的视觉理解和任务执行能力。其模型训练主要包括三个阶段。

步骤一：视觉-语言整体对齐学习。将输入的视觉语言特征映射到一个统一的特征空间中，从而使其能够有效理解输入的多模态信号。这是一种粗粒度的视觉-语言对齐学习，可以让系统具备整体上有效处理传入的视觉信号。研究人员采用了现存的图像-标题对（CC3M）、视频-标题对（Webvid）和区域-标题对（RefCOCO）的数据集进行训练。

步骤二：细粒度的时空视觉定位指令微调。系统采用了调用外部模块方式来执行各种像素级视觉任务，但LLM本身并未经过任何细粒度的视觉训练，这将会阻碍了系统实现真正的像素级视觉理解。为此，研究人员提出了一种细粒度的时空视觉定位指令微调训练，核心思想是使LLM能够定位图像的细粒度空间性和视频的具体时序特性。

步骤三：输出端面向命令调用的指令微调。上述第二阶段的训练赋予了LLM和前端编码器在像素级别理解视觉的能力。这最后一步，面向命令调用的指令微调，旨在让系统具备精确执行命令的能力，允许LLM生成适当且正确的调用文本。

由于不同的终端视觉任务可能需要不同的调用命令，为了统一这一点，研究人员提出将LLM的响应输出标准化为结构化文本格式，其中包括：