大模型对数据分布变化的鲁棒性研究综述

摘要:

       标准机器学习的一个主要限制是它产生的模型对分布变化不鲁棒,其中训练分布与测试分布不匹配(对于下游任务)。现有的工作表明,调整在广泛的未标记数据上训练的基础模型可以提高适应模型在各种变化中的鲁棒性。这为改进基础模型的训练和适应性以提高鲁棒性开辟了一系列新的有希望的方向。然而,我们并不认为基础大模型能完全解决鲁棒性问题--诸如跨时间外推和虚假相关性等挑战不太可能得到充分解决。

       现实世界的机器学习系统需要对分布变化具有鲁棒性-它们应该在与火车分布不同的测试分布上工作良好。高风险应用,如资源不足国家的贫困地图,自动驾驶汽车和医疗诊断,都需要模型很好地概括训练数据中没有看到的情况,例如,测试来自不同国家、不同驾驶条件或不同医院的样本。先前的工作表明,即使在最先进的模型中,这些类型的分布偏移也会导致性能大幅下降

       在本节中,我们考虑基础模型对分布变化的鲁棒性的作用。基础模型是在从分布预处理器采样的大型且多样化的未标记数据集上训练的,并且可以适应许多下游任务。对于每个下游任务T,基础模型被适配为从分布内(ID)的训练分布中采样的标记的训练数据,然后在分布外(OOD)的测试分布中进行评估。𝑝𝑝例如,一个贫困预测模型可以在来自世界各地的未标记卫星数据上进行预训练,以学习所有国家的有用特征,然后在尼日利亚的标记示例上进行微调,最后在标记示例稀缺的马拉维进行评估。

      我们认为:

1)基础模型是一种特别有前途的鲁棒性方法。现有的工作表明,在未标记数据上进行预训练是一种有效的、通用的方法,可以提高OOD测试分布的准确性,而许多鲁棒性干预措施仅限于窄类型的分布变化。然而,我们还讨论了为什么。

2)基础模型可能并不总是减轻分布变化,例如由于假相关或随时间变化而引起的变化。

3)我们概述了几个研究方向,以利用和改善基础模型的鲁棒性。

      我们注意到,基础模型导致改进外推的方法之一是通过为适应模型提供归纳偏差(通过模型初始化),这是在扩展到下游训练数据之外的不同数据集上学习的。然而,同样的归纳偏差也可以从预训练的数据中编码有害的关联,并在存在分布偏移的情况下导致代表性和分配性的损害。有关此类伤害和缓解方法的进一步讨论,请参见第4.6节:数据和第5.1节:公平性。

1.  优势

       通过学习大量不同的基础模型训练分布样本上的表示,基础模型可以提高下游测试分布样本T OOD上的自适应导数的准确性。OpenAICLIP模型是一种在各种图像和自然语言文档集上训练的基础模型,已被证明对ImageNet上的一些基准分布变化具有鲁棒性:例如,CLIP和标准ResNet 50ImageNet上都获得了76%的准确率,但CLIPImageNet V2上的准确率提高了6%,在ImageNet Sketch上的准确率提高了35%,这两者都与原始ImageNet训练分布相关但不同。相比之下,许多其他鲁棒性干预措施,如对抗性训练、不变风险最小化或使用更大的模型,对有效鲁棒性的影响很小(定义为分布内和分布外性能之间的差距),特别是在没有分布偏移的明确知识的情况下。许多其他工作表明,在大型数据集上进行预训练可以提高对常见图像损坏、标签移位和标签损坏的鲁棒性;对卫星图像任务中的真实世界空间移位的鲁棒性;以及对自然语言理解任务中的跨主题移位的鲁棒性。作为另一个例子,将基础模型训练数据多样化以包括多种语言(如多语言BERT )显着提高了看不见的语言对的性能。

各种分布变化的分布内(ID)和分布外(OOD)输入。这里描述的预测任务是图像的图像分类和文本的事实验证。尽管基础模型学习的表示提高了许多移位的下游鲁棒性(例如,常见的腐败),一些变化,如虚假相关性(其中草是牛的预测)和跨时间的外推(随着时间的推移而变化的事实)仍然可能未被基础模型解决。

2. 持续的挑战

       尽管有迹象表明,基础模型将导致鲁棒性的大幅改善,但我们预计基础模型并不是解决分布变化的灵丹妙药。我们在下面两大类分布变化的背景下讨论这一点。

假相关

       虚假相关性是特征和标签之间的统计相关性,对训练分布具有预测能力,但对测试分布没有预测能力。众所周知的例子包括依赖背景颜色进行对象识别,医疗诊断的手术标记,众包数据中的注释者偏见和人口统计学偏倚。模型学习这些虚假的相关性很大程度上是因为基础模型训练和适应数据表现出这些偏差,并且这个问题不能简单地用更大的模型来解决。基础模型可能会加剧或减轻虚假相关性的影响,但这取决于特定下游任务的性质及其与基础模型训练数据和算法的关系。通过用不同的数据集进行训练,基础模型可以提高对仅在训练数据的子集中发现的虚假相关的鲁棒性:例如,现有的研究发现,预训练的语言模型可以通过快速从反例学习到虚假相关来避免虚假相关。然而,基础模型也可能通过引入基础模型训练数据中存在的偏差来加剧这个问题,如在GPT-3和其他NLP模型中观察到的人口统计学偏差[。此外,单独的大规模训练不需要完全解决识别和不依赖于对下游训练集有预测性但对下游测试集没有预测性的特征的根本问题[Heinze-Deml and Meinshausen 2017]。解决这些挑战将需要我们理解和管理基础模型训练中的归纳偏差,并开发出能够抵抗学习虚假相关性的自适应算法。

外推和时间漂移

最后,基础模型的少量和零射击能力将意味着这些模型将越来越多地被用于远远超出训练分布的范围。虽然大规模的基础模型训练可以帮助某些形式的外推到新的分布,但它们的外推能力可能有限。例如,现有的语言模型在没有重新训练的情况下无法处理世界知识的变化或语言变化CLIP中的零拍摄传输在卫星图像领域受到很大影响ImageNet预训练并没有实质性地提高大型模型在医学图像上的性能。我们认为,不能假设基础模型在给定模态内自动外推(例如,所有图像),而且界定和区分基金会模型新启用的外推形式与仍然无法实现的外推形式将变得越来越重要。虽然现有的分布变化分类法已被普遍提出,但充分理解和定义基础模型有效的分布变化类型是鲁棒性研究的一个主要开放问题。

3. 机会

基础模型作为分布变化的通用鲁棒性干预措施,为鲁棒性研究开辟了新的途径。我们在下面列出了一些机会和开放的问题。

了解基础模型表达

现有的基础模型的鲁棒性研究主要是经验性的,并且对鲁棒性增益背后的机制几乎没有了解。Sun et al. 假设预训练的表示将不同的域(如IDOOD分布)更紧密地联系在一起,这反过来可以提高从标记的ID数据到OOD数据的泛化能力。测量有无预训练的领域表征之间的距离的控制实验可以阐明这种效应。在表征基础模型训练方面有初步的有希望的方向(例如,对比学习作为谱图分解)及其归纳偏差。然而,这些理论是有限的,并且未能解决其他经验上有效的基础模型,例如完全生成语言模型(例如,GPT-3和图像-GPT )。进一步理解这些归纳偏差在分布偏移下如何有用,可能会导致关于基础模型如何提高鲁棒性的更完整的理论。基础模型训练中的数据扩充。虽然在不了解下游任务的情况下训练的基础模型可以避免一些特定于任务的偏差,并且通常可以提高鲁棒性,但由于基础模型的训练方式而产生的某些统计偏差可能会持续存在。作为一个具体的例子,许多当代的自我监督算法在很大程度上依赖于选择一组适当的数据增强,这反过来又赋予了适应阶段不同类型的鲁棒性。例如,表明,通过旋转增强的对比学习训练的视觉基础模型可以提高具有旋转不变性的自适应任务的OOD性能,但可能无法提高OOD泛化需要其他不变性的任务的鲁棒性。进一步研究什么类型的数据增强可以提高广泛的下游任务的鲁棒性-包括从数据中学习的数据增强或设计为在数据模态中普遍适用的数据增强 -将为更好的基础模型训练算法提供信息。基础模型训练中的编码结构。一般来说,探索编码数据中已知结构和不变性的新方法是基础模型训练的重要途径。许多现实世界的任务具有附加的元数据(例如,空间位置坐标、来自我们的贫困预测示例中的辅助卫星的气候信息),这可以为OOD概括提供附加的结构(例如,跨地理区域)。例如,Xie等人。表明,元数据可以用作预训练的目标,以提高下游OOD的准确性。在语言中,对HTML数据中的标签进行建模提供了额外的下游任务相邻监督,允许新形式的提示(例如,填充<title>标题建议的标签),并提高数据效率。虽然目前的数据增强方法编码手工制作的知识,其他途径,如利用元数据可以提供更自动化的方式来确定哪些结构和不变性纳入基础模型训练。基础模型训练数据的专业化与多样性。基础模型训练数据的选择具有下游效应-在更多样化的数据集上进行训练并不总是比更专业的基础模型更好地获得下游性能。在某些领域,如卫星图像和专业文本主题,在专业领域继续进行预训练可显着提高下游性能。这是一个潜在的紧张来源:一方面,我们可能希望在一个大型的,多样化的数据集上训练基础模型,以便在分布变化下具有更强大的性能,而另一方面,我们可能需要专门化基础模型,以提高其在下游任务上的分布内和分布外性能。更好地理解专业化如何影响基础模型的分布内和分布外性能,将使我们能够设计和收集更有效的基础模型训练集。

适应方法。虽然基础模型提供了一个强有力的起点,但自适应方法如何使用预训练信息可能会影响鲁棒性。例如,用于语言模型的轻量级调优方法(例如,适配器/前缀/提示调优),通过优化一小部分参数(例如连续提示),同时保持其他基础模型参数不变,使模型适应新任务,似乎可以给予OOD性能优势Xie et al.在一种特殊情况下解释了这一点,其中将学习模型与冻结基础模型组合可以降低学习模型的复杂性,从而提高IDOOD的泛化能力。在视觉数据集上,Wortsman等人。; Kumar等人发现,冻结基础模型并仅训练头部可以比微调整个模型带来更好的OOD性能。Kumar等人从理论上解释了这一点,表明即使在简单的设置(双层线性网络)中,完全微调也会扭曲预训练的特征。然而,它仍然是很少理解的一般为什么冻结参数似乎提高OOD性能。最后,虽然目前的适应方法可能足以良好的ID推广,方法不明确占分布转移在他们的设计。作为第一步,我们可以研究用于分布转移的方法,如域自适应,域泛化和半监督学习方法,在用于自适应时如何与基础模型交互。在这些方面取得的进展可以导致适应方法,可以更好地利用基础模型的鲁棒性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/231431.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

代码序随想录二刷 |二叉树 | 二叉树的层序遍历II

代码序随想录二刷 &#xff5c;二叉树 &#xff5c; 二叉树的层序遍历II 题目描述解题思路代码实现 题目描述 107.二叉树的层序遍历II 给你二叉树的根节点 root &#xff0c;返回其节点值 自底向上的层序遍历 。 &#xff08;即按从叶子节点所在层到根节点所在的层&#xff0…

pta模拟题——7-34 刮刮彩票

“刮刮彩票”是一款网络游戏里面的一个小游戏。如图所示&#xff1a; 每次游戏玩家会拿到一张彩票&#xff0c;上面会有 9 个数字&#xff0c;分别为数字 1 到数字 9&#xff0c;数字各不重复&#xff0c;并以 33 的“九宫格”形式排布在彩票上。 在游戏开始时能看见一个位置上…

基于JAVA+SpringBoot+Vue的前后端分离的旅游网站

✌全网粉丝20W,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取项目下载方式&#x1f345; 一、项目背景介绍&#xff1a; 近年来&#xff0c;随…

【Vue】设置路由默认跳转指定页面

目录 设置路由默认跳转 上一篇&#xff1a; 登录注册界面制作 https://blog.csdn.net/m0_67930426/article/details/134895214?spm1001.2014.3001.5502 以这篇文章为例 首先我们要了解一下vue项目的router包的作用 上一篇文章里&#xff0c;创建了登录注册页面 如果我们…

14、SQL注入——HTTP文件头注入

文章目录 一、HTTP Header概述1.1 HTTP工作原理1.2 HTTP报文类型1.3 较重要的HTTP Header内容 二、HTTP Header注入2.1 HTTP Header注入的前提条件2.2 常见的HTTP Header注入类型 一、HTTP Header概述 1.1 HTTP工作原理 1.2 HTTP报文类型 &#xff08;1&#xff09;请求报文 …

InnoDB Architecture MySQL 5.7 vs 8.0

innodb-architecture-5-7 innodb-architecture-8-0 图片均来源于MySQL官网

wireshark

今天学习一下wireshark的基础命令。 如何筛选所需要的协议&#xff1a;http 剔除不需要的协议&#xff1a;&#xff01;http 过滤器&#xff0c;逻辑符号&#xff0c;多条件筛选&#xff1a;tcp && http 比较运算符号&#xff1a; 过滤IP地址&#xff1a; 我们可以…

大三上实训内容

项目一&#xff1a;爬取天气预报数据 【内容】 在中国天气网(http://www.weather.com.cn)中输入城市的名称&#xff0c;例如输入信阳&#xff0c;进入http://www.weather.com.cn/weather1d/101180601.shtml#input 的网页显示信阳的天气预报&#xff0c;其中101180601是信阳的…

连接Redis报错解决方案

连接Redis报错&解决方案 问题描述&#xff1a;Could not connect to Redis at 127.0.0.1:6379: 由于目标计算机积极拒绝&#xff0c;无法连接。 问题原因&#xff1a;redis启动方式不正确 解决方案&#xff1a; 在redis根目录下打开命令行窗口&#xff0c;输入命令redi…

合并一个文件夹下的多个txt文件,并对文本内容分列处理。

python 合并一个文件夹下的多个txt文件&#xff0c;并对文本内容分列。 原始文件&#xff1a; 最终结果&#xff1a; import pandas as pd import xlwt import pandas as pd from sqlalchemy import create_engine import pandas as pd import os import glob dirPath g…

《演说之禅》——笔记+原书电子版+禅宗的思维与原则

目录 演说之禅说什么思考以下&#xff1a;设计幻灯片步骤&#xff1a;禅宗的思维与原则 演说之禅说什么 “演说之禅”并非某种方法。方法是重要且必要&#xff0c;但世间并无万能药&#xff0c;方法的背后通常隐含着一个循序渐进的、系统化的过程&#xff0c;一个有准备的、线…

C语言趣练习:两个字符串不用strcmp函数怎么比较大小

目录 1习题一&#xff1a;两个字符串不用strcmp函数怎么比较大小&#xff0c;并输出其差值 2不用strcpy函数将s2字符串中内容复制到s1中 3译密码问题 4总结&#xff1a; 1习题一&#xff1a;两个字符串不用strcmp函数怎么比较大小&#xff0c;并输出其差值 解题思路&#x…

【vue+Swiper】vue中使用swiper缩略图,展示一张大图及n张小图,点击小图切换不同的大图展示,完整代码

效果&#xff1a; 这是在swiper官网上找的示例&#xff0c;swiper太强大了&#xff0c;有非常多不同的示例,有api&#xff0c;有教程&#xff0c;还可以下载示例代码。 但是第一次使用&#xff0c;研究这个缩略图的实现还是花了几个小时&#xff0c;好在实现了。 swiper官网…

docker学习(八、mysql8.2主从复制遇到的问题)

在我配置主从复制的时候&#xff0c;遇到了一直connecting的问题。 起初可能是我ip配置的不对&#xff0c;slave_io_running一直connecting。&#xff08;我的环境&#xff1a;windows中安装了wsl&#xff0c;是ubuntu环境的&#xff0c;在wsl中装了miniconda&#xff0c;mini…

嵌入式学习---ARM时钟体系

目录 时钟相关概念时钟脉冲时钟频率时钟的作用时钟信号的生成 S3C2440的时钟体系主时钟晶振两个PLL 时钟启动流程相关的寄存器 时钟相关概念 时钟脉冲 按一定电压幅度&#xff0c;一定时间间隔连续发出的脉冲信号。它是一个周期性的信号&#xff0c;每个周期内包含一个上升沿…

【知识】如何区分图论中的点分割和边分割

转载请注明出处&#xff1a;小锋学长生活大爆炸[xfxuezhang.cn] 以下两个概念在现有中文博客下非常容易混淆&#xff1a; edge-cut(边切割) vertex-partition(点分割)vertex-cut(点切割) edge-partition(边分割) 实际上&#xff0c;初看中文时&#xff0c;真的会搞不清楚。但…

【wpf】handycontrol growl 打造一个比弹窗优雅10倍的信息通知方式

前言 话不多说&#xff0c;先上图&#xff1a; 这种弹框不会影响主进程的脚本&#xff0c;同时分为四个等级&#xff1a; 普通消息&#xff1a;Info &#xff08;时间一到&#xff0c;自动消失&#xff0c;除非鼠标停留上面&#xff09;警告&#xff1a; Warning &#xff0…

基于ssm海鲜自助餐厅系统论文

摘 要 网络技术和计算机技术发展至今&#xff0c;已经拥有了深厚的理论基础&#xff0c;并在现实中进行了充分运用&#xff0c;尤其是基于计算机运行的软件更是受到各界的关注。加上现在人们已经步入信息时代&#xff0c;所以对于信息的宣传和管理就很关键。因此海鲜餐厅信息的…

SQL SELECT 语句

SELECT 语句用于从数据库中选取数据。 SQL SELECT 语句 SELECT 语句用于从数据库中选取数据。 结果被存储在一个结果表中&#xff0c;称为结果集。 SQL SELECT 语法 SELECT column1, column2, ... FROM table_name; 与 SELECT * FROM table_name; 参数说明&#xff1a; …
最新文章