【大模型上下文长度扩展】线性偏差注意力 ALiBi

线性偏差注意力 ALiBi

    • 核心问题:如何使Transformer模型在推理时有效处理长于训练时序列的输入,同时提高训练效率并减少资源需求?
    • 具体问题:当前位置编码方法不支持高效的序列长度外推。
    • 总结

 


论文:https://arxiv.org/pdf/2108.12409.pdf

代码:https://github.com/ofirpress/attention_with_linear_biases

 

核心问题:如何使Transformer模型在推理时有效处理长于训练时序列的输入,同时提高训练效率并减少资源需求?

解法名字: Attention with Linear Biases (ALiBi)

之所以选择 ALiBi,是因为:

  • 现有的位置编码方法(如正弦位置嵌入、旋转位置嵌入和T5偏差)在处理超出训练序列长度的输入时效率低下或资源需求高。
  • ALiBi通过引入静态、非学习的线性偏差到注意力机制,提供了一种无需增加额外计算负担即可有效外推输入长度的解决方案。

ALiBi 本质是,通过在注意力机制中加入基于查询和键之间距离的线性偏差,来提升Transformer模型对长序列的处理能力,无需增加位置嵌入或改变模型结构。

 

  1. 子问题1: 如何在不增加额外运行时开销和参数的情况下,使模型能够处理更长的序列?
    • 子解法1: ALiBi通过在注意力计算中引入固定斜率的静态线性偏差,而不是添加位置嵌入,实现对长序列的有效处理。
    • 例子: 通过修改模型的遮罩矩阵来加入线性偏差,使得训练在短序列上的模型能在推理时有效处理长序列,无需额外参数或显著增加内存。

在这里插入图片描述

在计算注意力分数时,Attention with Linear Biases (ALiBi) 方法如何工作。

在这个方法中,一个恒定的偏差(右侧矩阵)被添加到每个头的注意力分数计算中(左侧矩阵)。

这个偏差是通过将一个头特定的固定标量 ( m ) 乘以一个下三角矩阵来实现的,其中下三角矩阵的值由查询(( q ))和键(( k ))之间的距离决定,这样更远的键将收到更大的惩罚。

然后将softmax函数应用于这些经过偏差调整的分数。

这个过程不涉及学习,也就是说,斜率 ( m ) 在训练过程中是固定的,不进行调整。这种方法使模型能够更好地处理超出训练时看到的序列长度的输入。

在使用ALiBi时,网络底部不会添加位置嵌入。

 

  1. 子问题2: 如何在使用较少计算资源的情况下,达到或超越使用传统位置编码方法的模型性能?
    • 子解法2: 在大规模数据集上使用ALiBi训练模型,实现了相似或更佳的性能,同时运行更快且使用更少内存。
    • 例子: 在CC100+RoBERTa数据集上训练的1.3B参数ALiBi模型与传统正弦位置编码方法相比,在保持相似困惑度的同时减少了训练时间和内存使用。

 

  1. 子问题3: 如何确保方法的泛化性和在多种文本域上的有效性?
    • 子解法3: 使用固定斜率集合的ALiBi方法,在不同文本域的数据集上未经修改即展现出强大的结果。
    • 例子: 在WikiText-103和书籍域的数据集上,ALiBi展现了其超参数的通用性,无需调整即在外推长序列时超越了正弦位置编码基线。

 
ALiBi提供了一种有效的解决方案,解决了在推理时处理长于训练时序列长度的输入的问题,同时提高了训练效率并减少了资源需求。

与传统的位置编码方法相比,ALiBi展现了更好的外推能力、更高的训练效率和更低的资源需求。

通过在不同文本域和数据集大小上的测试,ALiBi证明了其泛化能力和有效性,为未来的NLP任务提供了新的方向。

 


具体问题:当前位置编码方法不支持高效的序列长度外推。

问题 2:

  • 当前位置编码方法不支持高效的序列长度外推

是问题 1 的具体细细节:

  • 如何使Transformer模型在推理时有效处理长于训练时序列的输入,同时提高训练效率并减少资源需求?

这个问题是广泛的,关注于如何优化Transformer模型以适应更长的输入序列,而不仅仅是限于训练时见过的长度。

它还包含了提高训练效率和减少资源需求的目标,这是实现大规模NLP模型可行性的关键考虑因素。

具体问题概述: 当前位置编码方法不支持高效的序列长度外推。

这个问题具体指出了实现核心问题目标中遇到的一个主要障碍:现有的位置编码方法限制了模型外推到训练长度之外序列的能力。

位置编码是Transformer模型中一个关键的组成部分,用于提供序列中各个元素的位置信息,这对于模型理解输入序列的结构至关重要。

如果位置编码方法不能高效地支持长序列的处理,那么模型在处理超出训练时序列长度的输入时就会遇到困难,这直接影响到模型的泛化能力和效率。

 

  1. 子问题: 为什么传统的正弦位置编码方法不能有效外推?
    • 子解法1: 正弦位置编码(sinusoidal position embeddings)。
    • 之所以存在问题,是因为: 虽然理论上能够外推,实际上正弦编码的外推能力非常有限,仅能处理比训练时略长的序列,之后性能迅速下降。
    • **例子:**当训练序列长度为512时,模型在处理长度为512+20的序列时性能改善,但在512+50之后性能停止提升并开始下降。

 

  1. 子问题: 旋转位置编码(rotary position embeddings)相对于正弦编码有何改进?
    • 子解法2: 旋转位置编码。
    • 之所以用旋转位置编码,是因为: 它在每个注意力层通过乘以正弦编码来注入位置信息,而不是仅在输入层添加,这样的设计可能对外推更有利。
    • **例子:**旋转位置编码使模型能够处理比训练时多出200个令牌的序列,但以更慢的训练和推理速度为代价。

 

  1. 子问题: T5偏差(T5 bias)方法如何实现更好的外推能力?
    • 子解法3: T5偏差。
    • 之所以用T5偏差,是因为: 不同于前两种方法,T5偏差通过修改注意力值的计算方式,为每个查询键对分数加上基于它们之间距离的学习偏差,从而允许模型更有效地处理长于训练序列的输入。
    • **例子:**使用T5偏差的模型能在训练序列长度为512时外推至1124个令牌的序列,尽管这带来了至少两倍的训练时间增加。

总结:

  • 传统正弦位置编码 在处理稍微超出训练长度的序列时能提供一定的性能改善,但其外推能力非常有限。
  • 旋转位置编码 通过在每个层注入位置信息,提高了外推能力,但牺牲了训练和推理速度。
  • T5偏差 通过一种全新的方法改进了外推能力,允许模型处理远超训练序列长度的输入,但以显著增加的计算成本为代价。

通过比较这些方法,我们看到了在设计用于外推的模型时在性能、效率和计算成本之间的权衡。

尽管T5偏差方法提供了显著的外推能力,但其高计算成本提示我们需要寻找更高效的外推方法,

这正是Attention with Linear Biases (ALiBi)方法被提出的动机。

 


总结

核心问题:如何让Transformer模型在推理时能有效处理比在训练时见过的序列更长的输入序列?

解法: ALiBi

之所以用ALiBi解法,是因为: 现有的位置编码方法(如正弦位置编码)无法高效地处理远超训练长度的序列,因为它们没有为模型提供处理未见过长度的输入序列的能力。

考虑到核心问题的解决需要一个能够适应不同长度输入的模型,ALiBi提供了一种优雅的方法,它能够在不同的文本长度和域中保持一致的性能,无需为每个新任务重新设计模型架构。

这与原有的位置编码方法形成对比,后者通常需要为每种新的序列长度或数据集调整或重新学习位置编码,这不仅增加了训练成本,也限制了模型的泛化能力。

通过直接调整注意力分数,ALiBi避免了这些限制,提供了一种对长序列更为敏感的方法,从而更好地处理序列外推问题。

 

具体子问题与子解法:

  1. 子问题1: 模型如何在处理序列时保持对远处上下文的敏感性?

    • 子解法1: ALiBi通过对注意力分数加入与距离成比例的线性偏差,使模型能够自然地给予更远的序列元素更小的权重。
    • 例子: 如果一个单词的位置距离当前单词越远,ALiBi方法就会给其注意力分数加上更大的负偏差,模拟了人类阅读时对前文内容的记忆逐渐减弱的自然趋势。
  2. 子问题2: 如何避免在模型中增加过多的参数,从而节省内存和计算资源?

    • 子解法2: ALiBi不添加额外的位置嵌入,而是直接在注意力机制中添加固定的线性偏差,从而不需要额外的参数学习。
    • 例子: 与需要学习一个位置嵌入矩阵的方法不同,ALiBi只需要在已有的注意力分数上加上一个预定义的偏差矩阵,这个矩阵是在训练前就固定好的,不占用额外的内存。
  3. 子问题3: 模型如何在不同的文本域和不同长度的数据集上保持性能?

    • 子解法3: ALiBi的线性偏差设置具有泛化性,因此无需针对新的数据集或文本域调整超参数。
    • 例子: 无论是在维基百科的文章还是在书籍的章节中,ALiBi通过其固定的偏差模式能够持续提供稳定的性能,无需针对每种类型的文本重新调整模型配置。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/375566.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

GeoServer 2.11.1升级解决Eclipse Jetty 的一系列安全漏洞问题

Eclipse Jetty 资源管理错误漏洞(CVE-2021-28165) Eclipse Jetty HTTP请求走私漏洞(CVE-2017-7656) Eclipse Jetty HTTP请求走私漏洞(CVE-2017-7657) Eclipse Jetty HTTP请求走私漏洞(CVE-2017-7658) Jetty 信息泄露漏洞(CVE-2017-9735) Eclipse Jetty 安全漏洞(CVE-2022-20…

ACK One Argo工作流:实现动态 Fan-out/Fan-in 任务编排

作者:庄宇 什么是 Fan-out Fan-in 在工作流编排过程中,为了加快大任务处理的效率,可以使用 Fan-out Fan-in 任务编排,将大任务分解成小任务,然后并行运行小任务,最后聚合结果。 由上图,可以使…

MySQL组复制的介绍

前言 本文介绍关于MySQL组复制的背景信息和基本原理。包括,介绍MySQL传统复制方法的原理和隐患、介绍组复制的原理,单主模式和多主模式等等。通过结合原理图学习这些概念,可以很好的帮助我们理解组复制技术这一MySQL高可用方案,有…

面向对象的三大特征之一封装

封装 概念 封装就是通过 权限修饰符(private)将成员变量隐藏起来 本质:就是将数据私有化,其他类使用必须通过设置的 get 和 set 方法来获取和设置例子:假设你有一本书,你将其藏起来,别人想要看…

Java基于微信小程序的医院核酸检测服务系统,附源码

博主介绍:✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专栏推荐订阅👇…

CSS伸缩盒模型

CSS伸缩盒模型 伸缩盒模型是CSS中的一种布局手段,可以使元素具有弹性,让元素可以跟随页面大小的改变而改变。 1. 伸缩容器 给元素设置display:flex 或 display:inline-flex ,就是伸缩容器。 2. 主轴与侧轴 主轴: 伸缩项目沿着…

2024年:用OKR管理你的生活

在科技高速发展的时代,越来越多的企业和团队开始采用OKR(Objectives and Key Results)管理方法来设定目标并跟踪进度。你是否想过,将OKR理念引入个人生活,以更有效地实现人生目标?本文将探讨如何在2024年运…

句子嵌入: 交叉编码和重排序

这个系列目的是揭开嵌入的神秘面纱,并展示如何在你的项目中使用它们。第一篇博客介绍了如何使用和扩展开源嵌入模型,选择现有的模型,当前的评价方法,以及生态系统的发展状态。第二篇博客将会更一步深入嵌入并解释双向编码和交叉编…

Java基于微信小程序的医院挂号系统

文章目录 1 简介2 技术栈3 系统目标3.2 系统功能需求分析3.2.1 功能需求分析 4 系统模块设计4.1 数据库模块设计 5 系统的实现5.1 微信小程序个人中心5.2 科**室内容查看的实现**5.3 预约挂号的实现5.4 后台管理界面实现5.5 医生预约管理5.6 医生信息管理 参考文献7 推荐阅读8 …

『 C++ - STL 』unordered_xxx系列关联式容器及其封装(万字)

文章目录 🎡 unordered系列关联式容器🎡 哈希表的改造🎢 节点的设置与总体框架🎢 迭代器的封装🎠 迭代器的框架🎠 operator()运算符重载🎠 其余成员函数/运算符重载 🎢 迭代器begin(…

ES监控方法以及核心指标

文章目录 1. 监控指标采集1.1 部署elasticsearch_exporter1.2 prometheus采集elasticsearch_exporter的暴露指标1.3 promethues配置告警规则或者配置grafana大盘 2. 核心告警指标2.1 es核心指标2.2 es容量模型建议 3. 参考文章 探讨es的监控数据采集方式以及需要关注的核心指标…

ArcGIS的UTM与高斯-克吕格投影分带要点总结

UTM(通用横轴墨卡托投影、等角横轴割椭圆柱投影)投影分带投影要点: 1)UTM投影采用6度分带 2)可根据公式计算,带数(经度整数位/6)的整数部分31 3)北半球地区&#xff0…

使用dbeaver导入Excel到mysql数据库

最近业务需要将Excel导入到mysql数据库中,之前一直用的heisql,但是heidisql的导入功能太弱了,后来用了dbeaver,功能很强大。 一、安装dbeaver 首先去官网下载dbeaver社区版,社区版免费:dbeaver.io/ dbea…

ISIS 特性验证(ATT置位、渗透、认证)

拓扑图 配置 sysname AR1 # isis 1is-level level-1cost-style widenetwork-entity 49.0001.0000.0000.0001.00 # interface GigabitEthernet0/0/0ip address 12.1.1.1 255.255.255.0 isis enable 1 # interface GigabitEthernet0/0/1ip address 13.1.1.1 255.255.255.0 isis e…

【Java安全】ysoserial-URLDNS链分析

前言 Java安全中经常会提到反序列化,一个将Java对象转换为字节序列传输(或保存)并在接收字节序列后反序列化为Java对象的机制,在传输(或保存)的过程中,恶意攻击者能够将传输的字节序列替换为恶…

ideal打包,如何访问项目根目录的libs中的jar包

参考&#xff1a;idea maven 导入lib中jar 并打包_maven引入lib中的jar包-CSDN博客 解决办法&#xff0c;只需要在pom文件中加入 <includeSystemScope>true</includeSystemScope> <build><!-- <includeSystemScope>true</includeSystemScope&g…

Matlab数据快速处理指南

文章目录 Excel文件转Mat或工作区从Excel文件读取数据并转换为.mat文件从Excel文件读取数据并加载到工作区 Mat文件转ExcelExcel快速实现万行级填充各种数据类型的操作创建结构体访问结构体字段修改结构体字段的值添加新字段删除字段遍历结构体字段 Excel文件转Mat或工作区 在…

Java中JVM常用参数配置(提供配置示例)

目录 前言一、内存参数配置二、垃圾收集器配置三、GC策略配置3.1、基础通用配置3.2、Parallel 和 Parallel Old 常用参数配置3.3、CMS 常用参数配置3.4、G1 常用参数配置 四、GC日志配置五、dump 日志参数配置5.1、OutOfMemory异常时生成dump文件5.2、发生Full GC时生成dump文件…

《Git 简易速速上手小册》第1章:Git 基础(2024 最新版)

文章目录 1.1 Git 简介&#xff1a;版本控制的演变1.1.1 基础知识讲解1.1.2 重点案例&#xff1a;协作开发流程优化案例&#xff1a;功能开发与分支策略 1.1.3 拓展案例 1&#xff1a;代码审查与合并1.1.4 拓展案例 2&#xff1a;冲突解决 1.2 安装和配置 Git&#xff1a;首次设…

WebSocket基础详解

文章目录 前言由来简介优缺点适用场景兼容性 API介绍构造函数实例方法send()close() 实例属性ws.readyState&#xff08;只读&#xff09;ws.bufferedAmount&#xff08;只读&#xff09;ws.binaryTypeextensions&#xff08;只读&#xff09;protocol&#xff08;只读&#xf…