今日arXiv最热大模型论文:谷歌最新研究,将LLM用于回归分析任务,显著超越传统模型

回归分析是一个强大的工具,能够准确预测系统或模型的结果指标,给定一组参数。然而,传统上这些方法仅适用于特定任务。本文研究者提出了OMNIPRED框架,这是一个训练语言模型作为通用端到端回归器的框架,它可以处理来自多种真实世界实验的(x, y)评估数据。通过使用来自Google Vizier的数据,这是世界上最大的黑盒优化数据库之一。广泛实验表明,通过仅使用数学参数和值的文本表示,语言模型能够进行非常精确的数值回归。如果给予在多个任务上训练的机会,它们可以显著超越传统的回归模型。

论文标题:
OmniPred: Language Models as Universal Regressors

论文链接:
https://arxiv.org/pdf/2402.14547.pdf

OMNIPRED框架简介:通用回归预测的新范式

OMNIPRED的创新之处:

  • OMNIPRED是第一个基于约束无关的文本表示的可扩展且简单的度量预测框架,适用于一般输入空间。

  • 通过在不同输入空间和目标上进行多任务学习,OMNIPRED在许多情况下可以胜过传统的回归模型。

  • 这些迁移学习的好处甚至在局部微调OMNIPRED后,对于未见过的任务仍然存在。

传统回归分析方法及局限性

传统的回归方法广泛使用统计技术,如高斯过程(GPs)、基于树的方法和多层感知器(MLPs),来预测给定固定长度特征向量的标量目标,这在表格数据设置中很常见。已经提出了多任务(Bonilla et al., 2007)和上下文(Krause & Ong, 2011)变体,用于迁移学习目的,但仍然需要固定长度的张量表示x,并且只能使用来自相同输入空间的先前x。

张量表示的问题:

张量表示本质上是约束依赖的,因为每个张量元素必须在合理的数值范围内(例如在[-1, 1]内)作为模型的输入。因此,为了表示x,每个标量特征必须根据用户提供的界限进行归一化,每个分类特征必须根据用户提供的选择进行独热编码。

动态但微小的输入空间变化,如新的界限或额外的类别,与这种静态表示不兼容。为了表示y,原始目标在R中也必须被归一化,这在测试时遇到异常y值时可能会出现问题。处理这个问题需要实施复杂的非线性变换(Daimon, 2011; Yeo & Johnson, 2000),其中许多也是数据依赖的(例如,需要存储训练数据中的最小/最大值)。

理想情况下,一个理想的回归器应该能够处理x并输出y,这两者都是绝对的,独立于变化的外部统计数据或搜索约束。

  • 例如,如果目标是f(x) = exp(x),那么回归器对f(2)的预测应该是不变的,无论约束是x ∈ [1, 5]还是x ∈ [0, 100]。

一种实现这一目标的方法是通过基于令牌的数据表示,这是通过令牌或符号离散地解析的(Zhou et al., 2023)。这立即在处理可变长度输入和额外的上下文元数据时解锁了大量的可转移性。

这种基于令牌的范式在人类反馈的强化学习中取得了巨大成功,其中通过文本响应(“x”)的回归,也称为奖励建模,对于最近交互式LLMs(如ChatGPT和Bard)的成功至关重要。在这里,LLMs能够模仿人类评级,以成对排名(“y”)或概率分数y ∈ [0, 1]的形式。

OMNIPRED的工作原理:多任务学习与文本表示

多任务学习(MTL)是一种机器学习范式,它通过同时训练相关任务来提高模型的泛化能力。OMNIPRED通过在不同输入空间和目标上进行多任务学习,展示了在许多情况下可以超越传统回归模型的能力。这种转移学习的好处甚至在未见过的任务上通过本地微调OMNIPRED后仍然存在。

实验设置:数据来源与模型训练

1. Google Vizier数据库的使用

在本研究中,数据源自Google Vizier,这是世界上最大的黑盒优化数据库之一。Google Vizier提供了一个丰富的实验设计和参数优化的数据集合,其中包含了多样化的实际世界实验的评估数据。这些数据的多样性为研究者们的研究提供了一个独特的机会,即使用文本表示的数学参数和值来训练语言模型进行精确的数值回归。

图片

2. 模型训练与参数设置

研究者们的目标是训练一个通用的端到端回归器,它能够处理各种不同的输入空间和目标。为了实现这一目标,我们采用了一个基于文本表示的框架,该框架能够独立于特定的输入空间约束。

图片

在训练过程中,研究者使用了一个标准的200M参数的T5编码器-解码器语言模型,并从头开始训练。研究者们的模型旨在学习一组权重θ,这些权重可以用于形成任意任务T的预测器sθ(·)。

此外还使用了交叉熵损失,并通过正则温度解码来重复采样预测值,以近似于定义在实数域R上的潜在分布。为了适应未见过的任务,研究者还可以通过局部微调模型来调整预测器。

实验结果:OMNIPRED与传统模型的比较

1. 多任务回归的性能

研究者们的实验结果显示,OMNIPRED在多任务回归方面的性能优于传统的回归模型。通过在不同的输入空间和目标尺度上同时进行回归,OMNIPRED能够捕捉到各种分析函数的整体形状,并以高精度进行预测。此外,OMNIPRED还能够通过独立同分布的预测样本表达不确定性估计。

图片

(图为多任务LM与单任务比较基准)

2. 跨任务迁移学习的效果

OMNIPRED展示了出色的跨任务迁移学习能力。通过在训练中观察到的其他类似但非等价任务的知识,OMNIPRED能够提高对特定任务的预测准确性。在对匿名化数据进行训练的情况下,研究者们发现模型无法从常见的文本线索中观察到有用的相关性,这验证了模型通过阅读文本线索进行迁移学习的能力。

图片

(图为选定4D频移BBOB函数的模型预测样本)

3. 模型微调与未见任务的适应性

研究者们进一步研究了微调对于提高预测准确性的作用。实验结果表明,对于AutoML领域的特定任务,预训练模型经过微调后能够达到与专门针对AutoML预训练的模型相同的准确性水平,而BBOB预训练的模型则表现出明显较差的结果。

图片

此外,研究者们还发现,预训练的知识可以显著地转移到新任务上,并帮助对新任务进行预测,尽管在某些情况下也存在负迁移的现象。

讨论:OMNIPRED的优势与挑战

1. 高精度预测的能力

OMNIPRED展现了在实验设计领域中的显著优势,特别是在高精度预测方面。通过利用文本表示的数学参数和值,OMNIPRED能够在多个不同任务上进行训练,并且在多任务学习环境中显著超越传统的回归模型,如多层感知器(MLPs)和提升树。

这种能力源于其对于大量异构数据集的处理,以及对于输入特征和输出标签之间复杂关系的建模。例如,使用谷歌Vizier的数据,OMNIPRED能够在不同的实验中进行精确的数值回归。

OMNIPRED的高精度预测能力在多个实验中得到了验证。

  • BBOB基准测试中,即使在随机域偏移的情况下,OMNIPRED也能够准确捕捉到不同目标尺度的分析函数的整体形状。此外,它还能够通过独立同分布的预测样本表达不确定性估计。

  • 真实世界数据上的训练中,OMNIPRED展示了在不同输入空间的手选研究中对地面真实目标的预测,这些研究代表了谷歌内部调整的目标,包括标准机器学习、生产系统以及科学研究。

2. 面临的技术挑战与未来方向

尽管OMNIPRED在多任务学习和高精度预测方面表现出色,但它仍然面临着一些技术挑战。

  • 首先,尽管OMNIPRED能够处理文本表示的参数,但在语言模型中处理数值数据的脆弱性和不可靠性仍然是一个问题。

  • 此外,OMNIPRED在低数据环境下的表现与在大数据环境下相比存在差异,这表明在小规模数据集上训练时,模型的精度可能会受到影响。

未来的研究方向可能包括:

  • 改进OMNIPRED以处理更复杂的输入空间,如组合和图形,这些传统上需要更复杂的建模技术

  • 考虑到OMNIPRED目前的设计主要针对超参数调整空间,将其应用于程序合成等无法传统回归的领域也是未来的一个潜在方向。

  • 还需要进一步研究哪些类型的元数据对于预测特别有用,以及如何利用这些元数据来提高预测的准确性。

总结:语言模型开拓的全新里程

OMNIPRED的开发标志着语言模型迈出了新的探索步伐。作为一个通用的回归器,OMNIPRED能够对任何规模的目标进行高精度预测,并且能够处理来自不同输入空间和应用的数据。它的简单和可扩展性使其能够从大量的离线多样化评估中学习,同时其单任务变体仍然能够与广泛的黄金标准基线竞争。

OMNIPRED还能够通过微调来适应未见过的数据,同时仍然从之前的数据中转移知识,展示了语言模型在此领域的广泛适用性和潜力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/426031.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

SNAP:如何批量预处理Sentinel2 L2A数据集并输出为TIFF文件?

我的需求 我目前就是希望下载哨兵2号数据,然后在SNAP中进行批量提取真彩色波段并输出为TIFF文件。 数据集下载说明 目前哨兵网站似乎进行了一大波更新,连网站都换了,网址如下: https://dataspace.copernicus.eu/ 打开后界面如…

五千字 DDL、DML、DQL、DCL 超详解

SQL语句,根据其功能,主要分为四类:DDL、DML、DQL、DCL。 DDL (Data Definition Language) 数据定义语言,用来定义数据库对象(数据库,表, 字段) DML (Data Manipulation Languag) 数据操作语言,…

想从事数据方向职场小白看过来, 数据方面的一些英文解释

想从事数据方向职场小白看过来,一些英文名词解释 文章目录 想从事数据方向职场小白看过来,一些英文名词解释 英文类解释NoSQL:ESB:ACID :Data Vault:MDM:OLAP:SCD:SBA:MP…

从嵌入式Linux到嵌入式Android

最近开始投入Android的怀抱。说来惭愧,08年就听说这东西,当时也有同事投入去看,因为恶心Java,始终对这玩意无感,没想到现在不会这个嵌入式都快要没法搞了。为了不中年失业,所以只能回过头又来学。 首先还是…

Python算法100例-2.11 换分币

完整源代码项目地址,关注博主私信源代码后可获取 1.问题描述2.问题分析3.算法设计4.确定程序框架5.完整的程序6.运行结果 1.问题描述 将5元的人民币兑换成1元、5角和1角的硬币,共有多少种不同的兑换方法。 2.问题分析 根据该…

【框架】Spring 框架重点解析

Spring 框架重点解析 1. Spring 框架中的单例 bean 是线程安全的吗? 不是线程安全的 Spring 框架中有一个 Scope 注解,默认的值是 singleton,即单例的;因为一般在 Spring 的 bean 对象都是无状态的(在生命周期中不被…

嵌入式Qt 对话框及其类型 QDialog

一.对话框的概念 对话框是与用户进行简短交互的顶层窗口。 QDialog是Qt中所有对话框窗口的基类。 QDialog继承与QWidfet是一种容器类型的组件。 QDialog的意义: QDialog作为一种专业的交互窗口而存在。 QDialog不能作为子部部件嵌入其他容器中。 QDialog是定制…

【算法集训】基础算法:枚举

一、基本理解 枚举的概念就是把满足题目条件的所有情况都列举出来,然后一一判定,找到最优解的过程。 枚举虽然看起来麻烦,但是有时效率上比排序高,也是一个不错的方法、 二、最值问题 1、两个数的最值问题 两个数的最小值&…

力扣刷题:226.反转二叉树

题目: 给你一棵二叉树的根节点 root ,翻转这棵二叉树,并返回其根节点。 示例 1: 输入:root [4,2,7,1,3,6,9] 输出:[4,7,2,9,6,3,1]示例 2: 输入:root [2,1,3] 输出:[2…

业务真的需要微服务吗

业务真的需要微服务吗 要说过去十年最火热的软件体系是什么,个人认为莫过于“微服务架构“了。从一线互联网架构师,到刚接触计算机软件不久的学生几乎都或多或少的了解过”微服务“相关知识了,其中在最出名的微服务体系要数 spring cloud 了…

CentOS安装Docker(黑马学习笔记)

Docker 分为 CE 和 EE 两大版本。CE 即社区版(免费,支持周期 7 个月),EE 即企业版,强调安全,付费使用,支持周期 24 个月。 Docker CE 分为 stable test 和 nightly 三个更新频道。 官方网站上…

作用域、解构、箭头函数

作用域 局部作用域 函数作用域(一直 存在) 块作用域(ES6,只有let和const有块级作用域&#xff0c;var没有) 块就是一对大括号&#xff0c;比如{ }、if(){ }、for(…){ } 使用var则失去块级作用域 //例如 for(var i1;i<3;i) {console.log(i)} console.log(i);//正确&…

Semantic human matting

1.introduction 数据集包括&#xff0c;时尚模特数据集&#xff0c;超过18.8w张模特图&#xff0c;从中选出35311张图片&#xff0c;DIM数据集&#xff0c;仅包含人类的图像&#xff0c;202个前景图像&#xff0c;背景来自coco数据集和互联网&#xff0c;背景图不含人类&#x…

SpringBoot整合MyBatis实现增删改查

✅作者简介:大家好,我是Leo,热爱Java后端开发者,一个想要与大家共同进步的男人😉😉 🍎个人主页:Leo的博客 💞当前专栏: 循序渐进学SpringBoot ✨特色专栏: MySQL学习 🥭本文内容: SpringBoot整合MyBatis实现增删改查 📚个人知识库: Leo知识库,欢迎大家访…

【问题解决】| 关于torch无法使用GPU的一些实验探索,思考

文章目录 1 研究背景2 问题解决2.1 问题一&#xff0c;这两个版本分别是怎么得到的&#xff1f;2.2 问题二&#xff0c;Windows下安装CUDA Tookit 是必须的吗&#xff1f;2.3 问题三&#xff0c;驱动版本必须大于等于运行时版本吗&#xff1f;2.4 问题四&#xff0c;只运行pip …

【大厂AI课学习笔记NO.56】(9)模型评测

作者简介&#xff1a;giszz&#xff0c;腾讯云人工智能从业者TCA认证&#xff0c;信息系统项目管理师。 博客地址&#xff1a;https://giszz.blog.csdn.net 声明&#xff1a;本学习笔记来自腾讯云人工智能课程&#xff0c;叠加作者查阅的背景资料、延伸阅读信息&#xff0c;及学…

微信小程序证书评级导致接口无法访问问题

微信小程序的ssl证书到期后&#xff0c; 更换了免费的ssl证书&#xff0c; 是在freessl网站申请的&#xff0c; 配置完了&#xff0c;后台可以访问https网页&#xff0c;但是小程序还是无法访问&#xff0c; 开始没有怀疑是https证书的问题&#xff0c; 调适了好长时间的代码&a…

前后端分离vue+nodejs高校体育运动会比赛系统08fv2-python-php-java

实现了一个完整的高校体育运动会比赛系统系统&#xff0c;其中主要有运动项目模块、学生模块、项目类型模块、用户表模块、token表模块、关于我们模块、收藏表模块、公告信息模块、留言板模块、运动论坛模块、配置文件模块、裁判员模块、比赛成绩模块、比赛报名模块、关于我们模…

9、taocms代码审计

一、XSS 1、DOM型xss 限制 无复现 payload: aa)alert(1)( 触发的参数&#xff1a;name代码 根据路由找到对应的文件&#xff0c;在api.php里接受全局变量action&#xff0c;最终赋值给$m,判断 如果$m不在数组就结束&#xff0c;新建方法复制给$model。检查类的方法是否存…

ctf_show笔记篇(web入门---爆破)

爆破 21&#xff1a;直接bp抓包跑字典&#xff0c;需base64加密 22&#xff1a;可用工具跑也可用浏览器找还可以用网上做好的域名查找去找 23&#xff1a;此题需跑脚本已经附上自写脚本 最后跑出来六个答案一个一个尝试得到答案为3j import hashlibm "0123456789qwert…