论文：https://arxiv.org/pdf/2308.00692

代码：GitHub - dvlab-research/LISA

摘要

尽管感知系统近年来取得了显著的进步，但在执行视觉识别任务之前，它们仍然依赖于明确的人类指令来识别目标物体或类别。这样的系统缺乏主动推理和理解隐含用户意图的能力。在这项工作中，我们提出了一种新的分割任务-推理分割。该任务的目的是在给定复杂且隐式的查询文本的情况下输出分割mask。此外，我们建立了一个由一千多个图像指令对组成的基准，将复杂的推理和世界知识纳入评估目的。最后，我们提出了LISA:大型语言指导分割助手（large Language Instructed Segmentation Assistant），它继承了多模态大型语言模型(LLM)的语言生成能力，同时还具有生成分割掩码的能力。我们使用<SEG>标记扩展原始词汇表，并提出嵌入作为掩码范式来解锁分割功能。值得注意的是，LISA可以处理以下情况:1)复杂推理;2)世界知识;3)解释性答案;4)多回合对话。此外，当只在无推理数据集上训练时，它显示出强大的zero shot能力。此外，仅使用239对推理分割图像指令对模型进行微调可以进一步提高性能。实验表明，该方法不仅开启了新的推理分割能力，而且在复杂推理分割和标准参考分割任务中都是有效的。

背景

在这项工作中，我们引入了一种新的分割任务-推理分割，它需要基于涉及复杂推理的隐式查询文本生成二进制分割mask。

值得注意的是，查询文本并不局限于简单的引用(例如，“橘子”)，而是涉及复杂推理或世界知识的更复杂的描述(例如，“高质量的食物含有维生素C”)。为了完成这一任务，模型必须具备两个关键能力:1)与图像联合推理复杂和隐式的文本查询;2)生成分割掩码。

尽管一些研究已经将robust的推理能力集成到多模态llm中以适应视觉输入，但这些模型中的大多数主要集中在文本生成任务上，并且在执行以视觉为中心需要细粒度fine-grained的输出格式的任务时仍然不足，例如分割。

通过将分割掩码表示为嵌入，LISA获得了分割能力，并从端到端训练中获益。

贡献

1）我们引入了推理分割任务，该任务需要基于隐含的人类指令进行推理。这项任务强调了自我推理能力的重要性，这对于构建一个真正智能的感知系统至关重要。

2）我们建立了一个推理分割基准，ReasonSeg，包含一千多个图像指令对。这个基准对于评估和鼓励社区开发新技术至关重要。

3）我们提出了我们的模型- LISA，它采用嵌入作为掩码范式来合并新的分割功能。当在无推理数据集上训练时，LISA在推理分割任务上表现出强大的零射击能力，并且通过对239对涉及推理的图像指令对进行微调，进一步提高了性能。我们相信LISA将促进感知智能的发展，并激发这一方向的新进展。

Reasoning Segmentation 推理分割介绍

问题定义

推理分割任务是给定一个输入图像ximg和一个隐式查询文本指令xtxt，输出一个二值分割maskM

查询文本可能不是简单的短语(例如，“垃圾桶”)，而是包含更复杂的表达式(例如，“应该把垃圾放入的东西”)或更长的句子(例如，“烹饪后，吃完食物，我们可以把剩下的食物和残羹冷炙扔在哪里?”)，这涉及到复杂的推理或世界知识。

基准 Benchmark

在缺乏定量评价的情况下，为推理分割任务建立一个基准是十分必要的。为了确保可靠的评估，我们从OpenImages (Kuznetsova et al.， 2020)和ScanNetv2 (Dai et al.， 2017)中收集了一组不同的图像，并用隐含的文本指令和高质量的目标掩码对它们进行注释。我们的文字说明包括两种类型:1)短句;2)长句子，如图2所示。所得的ReasonSeg基准测试总共包含1218个图像指令对。该数据集进一步划分为三个部分:train、val和test，分别包含239、200和779个图像指令对。由于基准测试的主要目的是评估，因此验证和测试集包含更多的图像指令样本。

方法

模型结构

Embedding as Mask

VisionLLM (Wang et al.， 2023)可以通过将分割掩码解析为多边形序列，支持将分割掩码表示为纯文本，并允许在现有多模态llm框架内进行端到端训练。然而，除非使用大量的数据和计算资源，否则多边形序列的端到端训练会引入优化挑战，并可能损害泛化能力。例如，训练一个7B模型，VisionLLM需要4 × 8 NVIDIA 80G A100 gpu和50个epoch，这在计算上是令人望而却步的。相比之下，训练LISA-7B只需要在8台NVIDIA 24G 3090 gpu 上训练10,000步。

为此，我们提出了嵌入作为掩码范式，将新的分割功能注入到多模态LLM中。

step1

Text

我们首先用一个新的令牌扩展原始的LLM词汇表，即<SEG>，它表示对segmentation输出的请求。给定文本指令xtxt和输入图像ximg，我们将它们输入到多模态LLM F中，LLM F反过来输出文本响应ytxt。

当LLM打算生成二进制分割掩码时，输出的ytxt应该包含一个<SEG>令牌。

然后，我们提取与<SEG>令牌对应的最后一层嵌入- hseg，并应用MLP投影层γ来获得hseg。

image

同时，视觉骨干神经网络从视觉输入图像中提取视觉嵌入。最后，hseg和f被馈送到解码器Fdec以产生最终的分割掩码M。解码器Fdec的详细结构参照Kirillov et al.(2023)。该过程可表述为

Training Objectives

损失函数

使用文本生成损失Lxt和segmentation mask损失Lmask对模型进行端到端训练。总目标L是这些损失的加权和，由λtxt和λmask决定:

具体来说，Ltxt是文本生成的自回归交叉熵损失，Lmask是掩码损失，这促使模型产生高质量的分割结果。为了计算Lmask，我们采用了每像素二进制交叉熵(BCE)损失和DICE损失的组合，相应的损失权重分别为λbce和λdice。给定真值目标ytxt和m，这些损失可以表示为:

Training Data Formulation 训练数据公式

我们的训练数据由三部分组成，全部来源于广泛使用的公共数据集。具体情况如下

Semantic Segmentation Dataset.语义分割数据集

语义分割数据集通常由图像和相应的多类标签组成。

在训练过程中，我们随机为每个图像选择几个类别。为了生成与可视化问答格式匹配的数据，我们使用了如下的问答模板

" USER: <IMAGE>你能分割这个图像中的{CLASS NAME}吗? "助理:是<SEG>，其中{CLASS NAME}是选择的类别，<IMAGE>表示图像patches token 的placeholder。

使用相应的二值分割掩码作为ground truth，提供mask loss监督。在训练过程中，我们还使用其他模板来生成QA数据，以保证数据的多样性。我们采用ADE20K，COCO-Stuff和LVIS-PACO零件分割数据集。

Vanilla Referring Segmentation Dataset 参考分割数据集

参考分割数据集提供输入图像和目标对象的显式简短描述。

因此，使用类似于“USER: <IMAGE>可以在此图像中分割{description}吗?”这样的模板很容易将它们转换为问答对。Assistant:当然，是<SEG>，其中{description}是给定的显式描述。本部分采用refCOCO、refCOCO+、refCOCOg和refCLEF数据集。

Visual Question Answering Dataset 图片问答数据集

为了保持多模态LLM原有的视觉问答(VQA)能力，我们还在训练过程中加入了VQA数据集。我们直接使用GPT-4生成的llava - instruction -150k数据(Liu et al.， 2023b)。

可训练参数

为了保持预训练的多模态LLM F(即我们实验中的LLaVA)的泛化能力，我们利用LoRA (Hu et al.， 2021)进行高效微调，并完全冻结视觉骨干区。解码器Fdec是完全微调的。此外，LLM的词嵌入和投影层γ也是可训练的。

实验

实验设置

网络结构

除非另有说明，我们采用LLaVA-7B-v1-1或LLaVA-13B-v1-1作为多模态LLM F

采用ViT-H SAM骨干网作为视觉骨干网。

γ的投影层是通道为[256,4096,4096]的MLP。

实现细节

8个NVIDIA 24G 3090 gpu

训练脚本基于deepspeed (Rasley et al.， 2020)引擎。我们使用AdamW (Loshchilov & Hutter, 2017)优化器，学习率和权重衰减分别设置为0.0003和0。

我们也采用WarmupDecayLR作为学习率调度器，其中warmup迭代设置为100。

文本生成loss λtxt gen和掩码loss λmask的权值分别设为1.0和1.0,

bce loss λbce和dice loss λdice的权值分别设为2.0和0.5。

此外，每个设备的batch size设置为2，gradient accumulation step设置为10。在训练过程中，我们对语义分割数据集中的每个图像最多选择3个类别。

数据集

对于语义分割数据集，我们使用ADE20K (Zhou等人，2017)和COCO-Stuff (Caesar等人，2018)。此外，为了增强对物体某些部分的分割结果，我们还使用了部分语义分割数据集，包括PACO-LVIS (Ramanathan等人，2023)、PartImageNet (He等人，2022)和PASCAL-Part (Chen等人，2014);

对于参考分割数据集，我们使用了refCLEF, refCOCO, refCOCO+ (Kazemzadeh et al., 2014), and refCOCOg (Mao et al., 2016).

对于视觉问答(VQA)数据集，我们使用llava - instruction -150k数据集(Liu et al.， 2023b)。为了避免数据泄露，我们在训练过程中排除了图像出现在refCOCO(+/g)验证集中的COCO样本。

此外，我们惊奇地发现，通过对ReasonSeg图像指令对的239个样本进行模型微调，模型的性能可以进一步提高。