Aligning Large Multi-Modal Model with Robust Instruction Tuning

Abstract

尽管多模态任务取得了有希望的进展,但当前的大型多模态模型(LMM)很容易产生与相关图像和人类指令 不一致的描述的幻觉。

LRV-指令。我们通过引入第一个大型且多样化的视觉指令调整数据集来解决这个问题,该数据集名为大规模鲁棒视觉(LRV)指令。我们的数据集由 GPT4 生成的 120k 视觉指令组成,涵盖16 个具有开放式指令和答案的视觉和语言任务。我们还设计了 LRV-Instruction,以包含正向和负向指令,以实现更强大的视觉指令调整。我们的否定指令是在两个语义级别设计的:(i)不存在的元素操作 和(ii)存在的元素操作

GAVIE:为了有效测量 LMM 产生的幻觉,我们提出了GPT4 辅助视觉指令评估(GAVIE),这是一种评估视觉指令调整的新方法,无需人工注释的真实答案,并且可以适应不同的指令格式。我们进行了全面的实验来研究 LMM 的幻觉。

结果。我们的结果表明,现有的 LMM 在收到我们的负面指令(尤其是现有元素操作指令)时表现出明显的幻觉。此外,通过对 LRV-Instruction 上的 MiniGPT4 进行微调,与最先进的方法相比,我们使用更少的训练数据成功地减轻了幻觉,同时提高了公共数据集的性能。此外,我们观察到训练数据中正例和负例的平衡比例可以产生更稳健的模型。

视觉指令跟随数据

基于具有边界框和密集标题的视觉基因组数据集,我们与仅语言的 GPT4 进行交互,并总共收集了 120K 视觉指令跟踪样本。 LRV-指令包括正指令和负指令:

  • 正向指令有16个任务,包括图像字幕、物体检测、图像情感分析、图像质量评估、物体交互分析、图像异常检测、参考表达接地、OCR、VCR、物体属性检测、多选VQA、语义分割、密集字幕、视觉蕴涵、风格图像字幕、活动识别、面部表情检测。
  • 负指令在两个语义级别上设计:(i) 不存在的元素操作和 (ii) 存在的元素操作。

GPT4-辅助视觉教学评估

我们引入 GPT4 辅助视觉指令评估 (GAVIE) 作为一种更灵活、更强大的方法来测量 LMM 生成的幻觉,而不需要人工注释的真实答案。GPT4 将带有边界框坐标的密集标题作为图像内容,并比较人类指令和模型响应。然后,我们要求 GPT4 充当智能老师,并根据两个标准对学生的答案进行评分(0-10)。

  • (1)准确性:对于图像内容的响应是否准确。
  • (2)相关性:响应是否直接遵循指令。

自然语言处理领域已经取得了重大进展,导致了能够理解和遵循给定自然语言输入的指令的模型的开发 。36;10;26;5]。这些模型利用大型语言模型 (LLM) 的强大功能并依赖于高质量的指令数据。同样,我们也努力将类似的功能引入多模式模型。GPT4 [27]在与人类的多模式对话中表现出了令人印象深刻的性能,但促成其非凡能力的技术仍然不透明。因此,最近出现了几个大型多模态模型(LMM)[39;23;10;8],例如 MiniGPT4 [39]和 LLaVA [23],两者都利用骆马毛[7]作为语言生成器,但具有不同的视觉编码器[28;16]。指导BLIP [8]从预训练的 BLIP-2 初始化[15]而多式联运-GPT (MMGPT) [10]是建立在 Flamingo [1;3]。

最近的一项研究 [14】透露LLM的幻觉问题虽然不是所希望的,但却被这些LMM遗传了[39;23;10;8]。幻觉,与法学硕士相关的一个主要道德问题 [4],可能会导致有害的后果,特别是当没有足够领域知识的用户过度依赖这些越来越令人信服的语言模型时。在 LMM 幻觉的背景下,该模型可以生成与给定图像相冲突的信息的描述。例如,如图1  (以红色突出显示)所示,现有的 LMM [39;23;8;10]倾向于描述不存在的物体,例如“狗”从事不存在的活动,例如“玩球”。此外,该模型可能会在不遵循人类指令的情况下生成长图像描述(以蓝色突出显示)。

这些幻觉的可能原因是什么?由于当前的 LMM 建立在强大的 LLM 之上,因此它们可能会过度依赖语言先验,并生成更有可能与指令文本结合在一起的单词,而不管图像内容如何。更重要的是,LMM,例如 MiniGPT4 [39]和 LLaVA [23],采用合成指令数据进行训练,这些数据通常很长并且涉及图像中不存在的对象、活动或关系。

为什么 LMM 不能准确遵循人类指令?我们推测这是由于他们的训练数据缺乏多样性。例如,MiniGPT4 [39]仅使用专为图像字幕任务设计的四个指令模板来指导调整。虽然 MMGPT [10]和指导BLIP [8]结合了几个数据集作为指令调优数据,它们的指令和答案仍然基于几个模板。

为了应对这些挑战,我们推出了LRV-Instruction,这是一个大型且多样化的视觉教学基准。我们的基准测试由 GPT4 生成的 120k 视觉指令组成,其灵感来自于最近 GPT 模型在文本注释任务中的成功 [24]。与之前的研究不同,之前的研究侧重于有限的任务和由人类专家创建的预定义模板 [39;8;10],LRV-Instruction涵盖了16个视觉语言任务,具有开放式指令和答案,如图 3和表2所示。 1(a) . 正如观察到的[18],当前的 LMM 倾向于对向模型提供的任何指令回答“是” ,即使正确的答案应该是“否”。有些模型甚至在评估过程中对超过 90% 的负面测试示例回答“是” 。我们的调查表明,大多数 LMM 在仅包含正向指令的不平衡数据集上进行了微调(表1)。为了使 LMM 能够更忠实地响应人类指令,我们设计了LRV-Instruction,以包含负指令和正指令,以实现稳健的指令调整。我们的否定指令是在两个语义级别生成的(图2):(i)不存在的元素操作(ii)存在的元素操作以两种不同的格式(声明式疑问式)。为了提高视觉指令调整评估的稳健性和灵活性,我们提出了GPT4 辅助视觉指令评估(GAVIE),从两个不同的方面评估 LMM 输出:评估指令跟随性能的相关性和测量幻视的准确性在 LMM 输出中。GAVIE不需要人工注释的真实答案[29]并且可以轻松适应不同的指令格式,而不是[中的特定设计18]。

我们根据经验评估了四个公开可用的 LMM  [39;23;8;10]在我们的基准上,发现现有的 LMM 在收到我们的负面指令提示时会产生严重的幻觉。我们通过微调 MiniGPT4 进一步验证了LRV-Instruction的有效性[39]关于这个更平衡的数据。与原始 MiniGPT4、LLaVA 相比,我们经过指令调整的 MiniGPT4 受到的幻觉影响要小得多,并且实现了最先进的性能[23] , 指示BLP [8]和 MMGPT [10]我们的评估集和公共基准[18;11]。我们还观察到,对于 LMM,存在的元素操作指令比不存在的元素操作指令更具挑战性。此外,稳健的模型性能需要正负实例之间的平衡比例。总而言之,我们的贡献有三方面:

  • • 

    我们构建了LRV-Instruction,这是一个包含 120k 视觉指令的大型且多样化的数据集,其中包含 16 个视觉和语言任务以及不同语义级别和风格的负面指令。

  • • 

    我们提出了GAVIE,一种评估视觉指令调整的新颖方法,无需真实答案和预先设计的指令格式。

  • • 

    我们进行了全面的实验来研究当前 LMM 的幻觉。实证研究验证了LRV-Instruction对于鲁棒视觉指令调整的有效性。

2相关作品

早期探索[35;16;17 号;32]视觉和语言预训练模型倾向于使用基于 Bert 的[25;12]模型作为语言解码器。受到大型语言模型最近成功的启发[33;9;38]和数据集[19;6;13;21;30;31;20],许多研究[1;15;14]一直致力于通过将强大的法学硕士与上下文或少量学习能力相结合来改进视觉语言预训练模型。最近,一些视觉指令调整的 LMM [39;23;10;8]已经出现,在未见过的 VL 任务中表现出了出色的泛化性能。具体来说,LLaVA [23]将视觉编码器的输出投影为 LLaMA 的输入[33]并在合成数据上训练对齐网络和法学硕士。迷你GPT4 [39]基于 BLIP-2 构建,但使用 Vicuna [7]作为语言解码器。它仅在来自 ChatGPT 的较长图像标题上微调跨模式对齐网络。研究方法[10;8]是在 VL 数据集集合上进行指令调整的,但是 InstructBLIP [8]使用 BLIP2 [15]作为骨干,而[10]从 Flamingo [初始化1]。mPLUG-owl [37]微调 LLaMA [33]使用来自 LLaVA 的文本指令数据和视觉语言指令数据的模型[23]。相比之下,我们提出了一个大型且多样化的视觉指令数据集,其中包含 16 个视觉和语言任务以及不同语义级别和风格的负面指令。这有助于提高当前 LMM 的鲁棒性。

尽管 LMM 在解决 VL 任务方面很强大,但它们也遭受着 LLM 继承的幻觉。流行的图像字幕指标,例如 CIDEr [34]香料[2]不对幻觉进行适当的惩罚。椅子,[29],不稳定,需要复杂的人为解析规则才能精确匹配。或者,[18]将幻觉转化为二元分类问题。然而,它要求输入问题遵循特定的模板,例如“图像中是否有<object>?” 。相比之下,我们提出的 GAVIE 可以以开放式的方式评估模型幻觉,而不需要人工注释的真实答案。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/235196.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【项目实现】ResShift:通过残差位移实现图像超分辨率的高效扩散模型(NeurIPS 2023,聚焦)

基于扩散的图像超分辨率&#xff08;SR&#xff09;方法主要受到数百甚至数千个采样步骤要求导致推理速度低的限制。现有的加速度采样技术不可避免地在一定程度上牺牲了性能&#xff0c;导致SR结果过于模糊。为了解决这个问题&#xff0c;我们提出了一种新颖而高效的SR扩散模型…

天池SQL训练营(四)-集合运算-表的加减法和join等

-天池龙珠计划SQL训练营 4.1表的加减法 4.1.1 什么是集合运算 集合在数学领域表示“各种各样的事物的总和”, 在数据库领域表示记录的集合. 具体来说,表、视图和查询的执行结果都是记录的集合, 其中的元素为表或者查询结果中的每一行。 在标准 SQL 中, 分别对检索结果使用 U…

AWS Ubuntu设置DNS解析(解决resolve.conf被覆盖问题)

众所周知&#xff1a; Ubuntu在域名解析时&#xff0c;最直接使用的是/etc/resolve.conf文件&#xff0c;它是/run/systemd/resolve/resolve.conf的软链接&#xff0c;而对于刚装完的ubuntu系统&#xff0c;该文件的内容如下 ubuntuip-172-31-36-184:/etc$ cat resolv.conf #…

02-Nacos和Eureka的区别与联系

Nacos和Eureka的区别 联系 Nacos和Eureka整体结构类似: 都支持服务注册, 服务拉取, 采用心跳方式对服务提供者做健康监测的功能 区别 Nacos支持服务端主动检测服务提供者状态: 临时实例采用心跳模式,非临时实例采用主动检测模式但对服务器压力比较大(不推荐) 心跳模式: 服务…

华为数通方向HCIP-DataCom H12-831题库(多选题:161-180)

第161题 以下关于IS-IS路由渗透的描述,正确的有哪些项? A、若要配置Level-2区域的路由向Level-1区域渗透,则需要在Level-1设备上配置命令import-routeisis level_-2 into level_-1 B、缺省情况下,Level-2区域无Level-1区域的路由信息,需要通过在Level-1-2设备上配置impor…

PPT插件-好用的插件-插入媒体-大珩助手

批量媒体 包含批量视频、批量音频、批量图片&#xff0c;可实现从光标所在的位置开始&#xff0c;每页插入一个视频、一个音频、一张图片&#xff0c;且图片和视频的尺寸与当前幻灯片尺寸一致 插入文本 包含黑字无底、白字红底、白字黛底、白字绿底、白字蓝底预设一键文本&am…

C++12.5

想象一下你去了一家动物园&#xff0c;看到了许多不同种类的动物&#xff0c;如狮子、大象、猴子等。现在&#xff0c;动物园里有一位讲解员&#xff0c;他会为每种动物表演做简单的介绍。 在这个场景中&#xff0c;我们可以将动物比作是不同的类&#xff0c;而每种动物表演则…

三相不平衡电压的正负序分析

1、什么是正负序&#xff1f; ABC 正序 ACB 负序 2、在abc坐标系下 接着利用矢量的旋转消去其它分量。。。 同理&#xff0c;得到其它的所有正负序的分量abc 3、在α/β坐标系下&#xff0c; 依次算出正负序的α/β来表示的abc 有一点需要特别注意&#xff0c;可以看到…

Java类对象的操作

1.Student.java package Message; public class Student {private String stuName; // 姓名private int money; // 存款余额private String studentID; // 学号private int age; // 年龄private String address; // 地址private String phoneNumber; // 电话号码private String…

同名称的文件如何批量指定到同名称文件夹中保存

在日常工作中相信大家都是会遇到文件或文件名修改名称、或文件批量归类保存等等&#xff0c;相对来文件或文件夹批量重命名会比较好操作&#xff0c;如果遇到按文件名称批量到指定同名称文件夹中保存呢&#xff1f;这可要什么来实现呢&#xff0c;到底能不能实现出来。接下来大…

Go1.21.0 程序启动过程

版本说明 Go 1.21.0操作系统&#xff1a;Windows11 Intel64 结论先行 开发关注版 在 Go 语言中&#xff0c;启动顺序通常如下&#xff1a; 导入包&#xff1a;首先&#xff0c;Go 编译器按照源文件中的 import 语句导入所有需要的包。初始化常量和变量&#xff1a;接着&am…

SpringBoot自定义参数校验注解

为什么要自定义校验注解? 当现有的注解NotEmptyPatternNotNullURl等不能满足业务需求的时候,我们需要手动自定义一个注解 操作步骤 新建一个anno的包 单击右键添加注解 编写state注解 创建validation文件夹 编写校验规则 然后给上面的State注解指定这个校验规则 使用注解…

程序的机器即代码表示

高级语言与机器级代码之间的对应 x86汇编语言指令基础 mov指令 mov目的操作数d,源操作数s destination:目的地 source:来源、发源地 #mov指令功能: 将源操作数s复制到目的操作数d所指的位置 mov eax, ebx #将寄存器ebx的值复制到寄存器eax mov eax, 5 #将立即数5复制到寄存器…

【LeetCode刷题-二叉树】--110.平衡二叉树

110.平衡二叉树 方法一&#xff1a;自顶向下递归 对于当前遍历到的节点&#xff0c;首先计算左右子树的高度&#xff0c;如果左右子树的高度差是否不超过 111&#xff0c;再分别递归地遍历左右子节点&#xff0c;并判断左子树和右子树是否平衡。这是一个自顶向下的递归的过程。…

GoWeb开发框架gin-基础路由使用

文章目录 1.安装并写一个demo2.配置GoLang热加载脚手架3.配合net/http使用完整示例4.返回值4.1String返回值4.2Json返回值4.3struct结构体返回值4.4jsonp返回值4.5XML返回值 5.接收前端传过来的参数5.1get请求传值5.2form表单传值5.3接收结构体5.4路由地址传参 6.完整代码 1.安…

00.仿简道云公式实战-学前须知

简道云介绍&#xff1a;简道云作为一款个性化应用搭建工具&#xff0c;支持用户在线无编程、免费搭建管理应用&#xff0c;如进销存系统&#xff0c;OA系统等常见应用&#xff0c;公式可以帮助用户提高填写表单的效率&#xff0c;将一些数据自动计算出来。了解简道云公式的小伙…

flstudio21.3.2304高级版水果编曲音乐软件

flstudio高级版是一款适用于广泛领域的音频编辑软件。它支持多通道混音器和VST插件&#xff0c;包括数百种乐器和效果插件。它还为您提供了一个乐谱编辑器&#xff0c;需要对不同乐器的节奏进行必要的编辑。Flstudio具有许多内置电子合成声音&#xff0c;可提供更广泛的电子声音…

代码随想录二刷 |二叉树 | 二叉树的右视图

代码随想录二刷 &#xff5c;二叉树 &#xff5c; 二叉树的右视图 题目描述解题思路代码实现 题目描述 199.二叉树的右视图 给定一个二叉树的 根节点 root&#xff0c;想象自己站在它的右侧&#xff0c;按照从顶部到底部的顺序&#xff0c;返回从右侧所能看到的节点值。 示例…

推荐4个优秀的 Python 时间序列分析库

时间序列分析在金融和医疗保健等领域至关重要&#xff0c;在这些领域&#xff0c;理解随时间变化的数据模式至关重要。在本文中&#xff0c;我们将介绍四个主要的Python库——statmodels、tslearn、tssearch和tsfresh——每个库都针对时间序列分析的不同方面进行了定制。这些库…

【unity实战】一个通用的FPS枪支不同武器射击控制脚本

文章目录 前言模型素材文章用到的粒子火光特效射击效果换弹瞄准开枪抖动效果设置显示文本最终代码不同武器射击效果1. 手枪2. 机枪3. 狙击枪4. 霰弹枪5. 加特林 其他感谢完结 前言 实现FPS枪支不同武器效果&#xff0c;比如手枪&#xff0c;喷子&#xff0c;狙击枪&#xff0c…