14篇最新Transformer热门论文!涵盖注意力机制、架构改进、适用性扩展等

在深度学习技术的飞速发展中,Transformer模型无疑成为了当今研究的热点,它凭借其独特的架构和强大的表达能力,在自然语言处理、计算机视觉和语音识别等领域取得了令人瞩目的成果。

今天,特意为大家整理了14篇Transformer热门论文,这些论文涵盖了注意力机制、架构改进以及适用性扩展等多个方向,一起看看Transformer方向近期的研究成果和进展吧!

┃Attention机制改进与替代

1、Rethinking Attention: Exploring Shallow Feed-Forward Neural Networks as an Alternative to Attention Layers in Transformers(AAAI2024)

重新思考注意力:探索浅层前馈神经网络作为Transformer中注意力层的替代方案

简述:本文研究探讨了使用简单的浅层前馈网络来模拟Transformer模型中注意力机制的有效性,研究用浅层前馈网络替换了Transformer中注意力机制的关键元素,并通过知识蒸馏对这些网络进行训练。在IWSLT2017数据集上的实验表明,这些“无注意力的变形金刚”与原始架构的性能相当。通过消融研究和替代网络试验,支持了该方法的可行性,这表明浅层前馈网络在简化序列到序列任务的复杂架构方面具有潜力。

图片

2、Fairness-Aware Structured Pruning in Transformers(AAAI2024)

Transformer中的公平感知结构化剪枝

简述:本文研究分析了注意力头如何影响基于转换器的预训练语言模型中的公平性和性能,并提出了一种新方法,用于修剪对公平性产生负面影响的注意力头,同时保留对性能至关重要的注意力头。这种方法实用,因为它不需要微调最终修剪的模型。研究结果表明,与有偏见的模型相比,不同尺寸的模型在减少性别偏见的同时,性能仅略有下降。

图片

3、FLatten Transformer: Vision Transformer using Focused Linear Attention(ICCV2023)

FLatten Transformer:使用聚焦线性注意力的视觉Transformer

简述:本文提出了一种聚焦线性注意力模块,旨在提高效率和性能。通过分析线性注意力的局限性,研究人员引入了映射函数和秩恢复模块,增强了自我注意力的表现力,同时保持较低的计算复杂度。实验证明,该模块适用于多种视觉转换器,并在多个基准测试中实现了性能提升。

图片

┃Transformer架构改进

4、SeTformer is What You Need for Vision and Language(AAAI2024)

SeTformer:视觉与语言任务所需的模型

简述:本文提出了一种新型变压器SeTformer,完全用自优化传输(SeT)替代了点积自注意力(DPSA),以提高性能和计算效率。SeT基于两个基本softmax属性:保持非负注意力矩阵和使用非线性重新加权机制强调重要标记。在ImageNet-1K上,SeTformer实现了84.7%和86.2%的前1准确率,并在目标检测和语义分割任务中优于其他模型。SeTformer还在GLUE基准测试中实现了最先进的语言建模结果,展示了其在视觉和语言任务中的适用性。

图片

5、Simplifying Transformer Blocks

简化Transformer块

简述:深度 Transformer 的复杂构建块可能导致训练困难,本文研究探索了简化标准 Transformer 块的可行性。通过结合理论和观察,研究人员修改了模块,移除了跳过连接、投影或值参数、顺序子块和归一化层,以简化结构。在自回归解码器和 BERT 编码器模型实验中,简化版 Transformer 与标准版速度和性能相当,但训练吞吐量提高 15%,参数减少 15%。

图片

6、Token Merging: Your ViT But Faster(ICLR 2023)

Token合并:你的ViT但更快

简述:本文提出了令牌合并(ToMe),一种简单且无需训练的方法,能够提高现有ViT模型的吞吐量。ToMe使用准确的匹配算法将相似标记组合在一起,使得图像和视频吞吐量大幅提升,精度下降很小。ToMe也能够用于训练,加速MAE视频微调,并且使音频吞吐量提高2倍,mAP下降仅0.4%。总体而言,ToMe在图像、视频和音频方面的准确性和速度与最先进的产品相媲美。

图片

7、Effcient Long-Range Transformers: You Need to Attend More, but Not Necessarily at Every Layer(EMNLP2023)

高效长程Transformer:你需要更多地关注,但不必在每一层都进行注意

简述:本文提出了 MASFormer,这是一种转换器变体,它使用混合注意跨度来高效处理远程和短程依赖关系。在自然语言建模和生成任务中,MASFormer 表现出与普通变压器相当的性能,但计算成本显著降低(高达 75%)。此外,研究人员还研究了使用长序列数据进行持续训练的有效性,以及序列长度对生成性能的影响。

图片

8、Monarch Mixer: A Simple Sub-Quadratic GEMM-Based Architecture(NeurIPS 2023)

Monarch Mixer:基于GEMM的简单亚二次架构

简述:本文提出了一种新架构Monarch Mixer(M2),使用亚二次基元沿序列长度和模型维度扩展。M2通过Monarch矩阵实现,这是一种简单但富有表现力的结构化矩阵类,能够在GPU上实现高硬件效率。实验表明,M2在非因果BERT风格语言建模、ViT风格图像分类和因果GPT风格语言建模中表现出色,与BERT-base和BERT-large在GLUE质量上相匹配,参数最多减少27%,在ImageNet上精度提高,同时在The PILE的预训练困惑中以360M参数匹配GPT风格的Transformers,表明了在缺乏注意力或MLP的情况下匹配Transformer质量的可能性。

图片

┃Transformer适用性扩展

9、iTransformer: Inverted Transformers Are Effective for Time Series Forecasting(ICLR 2024)

iTransformer:反相变压器对时间序列预测有效

简述:本文提出了iTransformer模型,通过将时间序列中的每个变量独立嵌入为变量子token,并应用自注意力机制和前馈网络来学习非线性表示,有效地捕捉多变量相关性并提高预测性能。iTransformer在具有挑战性的真实数据集上实现了最先进的技术,增强了Transformer系列的性能、泛化能力以及对任意回溯窗口的利用,使其成为时间序列预测的基本支柱。

图片

10、Vision Transformers Need Registers(ICLR 2024)

视觉 Transformer 需要寄存器

简述:本文研究了监督和自监督视觉Transformer(ViT)网络中的特征图伪影,这些伪影与推理时的高范数标记相关,主要位于图像的低信息背景区域。为了解决这个问题,研究人员提出了一种为输入序列添加额外令牌的方法,这有效解决了监督和自监督模型的问题。这项改进为自监督视觉模型在密集视觉预测任务上设定了新的技术标准,使得使用更大模型的对象检测方法成为可能,并为下游视觉处理提供了更平滑的特征图和注意力图。

图片

11、Multi-scale Transformers with Adaptive Pathways for Time Series Forecasting(ICLR 2024)

具有自适应路径的多尺度变换器用于时间序列预测

简述:本文提出了Pathformer,一种具有自适应通路的多尺度Transformer模型,用于时间序列预测。该模型通过将时间序列划分为不同尺度的斑块并进行双重注意力机制,捕捉全局和局部特征。自适应路径进一步优化了多尺度建模过程,提升了预测精度和泛化性。实验证明,Pathformer在多个真实数据集上超越了当前所有模型,展现了卓越的性能和泛化能力。

图片

12、OneFormer: One Transformer to Rule Universal Image Segmentation(CVPR2023)

OneFormer:一个Transformer统治通用图像分割

简述:本文提出了OneFormer,一个通用的图像分割框架,通过将分割与多任务训练相结合,实现了对语义、实例和全景分割的联合训练。OneFormer使用任务令牌动态调节模型,支持多任务训练和推理。此外,研究人员在训练中引入了查询文本对比损失,以增强任务间和类间的区分。实验表明,OneFormer在ADE20k、Cityscapes和COCO的三个分割任务上都优于单独训练的Mask2Former模型。

图片

13、Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series Forecasting(ICLR 2023)

Crossformer:利用跨维度依赖关系进行多变量时间序列预测的 Transformer

简述:本文提出了一种基于Transformer的模型Crossformer,专为多变量时间序列(MTS)预测而设计,它通过DSW嵌入方法将MTS数据转为2D阵列,并使用两阶段注意力(TSA)层捕捉时间和跨维度依赖。该模型采用了分层编码器-解码器(HED)框架,以便有效地利用不同尺度的信息进行预测。实验结果表明,Crossformer 在真实世界数据集上的表现优于之前的技术。

图片

┃精度与效率平衡

14、EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention(CVPR2023)

EfficientViT: 具有级联组注意力的内存高效视觉Transformer

简述:本文提出了一种称为Efficient ViT的高速视觉Transformer,为了提高现有transformer模型的速度,研究人员使用了一种三明治布局的新构建块,使用单个内存绑定的MHSA,在保证通道通信的同时提高内存效率。还使用了级联的群体注意力模块来提高注意力多样性,避免计算冗余。实验表明,Efficient ViT优于现有的高效模型,在速度和精度方面获得了良好的平衡。

图片

码字不易,欢迎大家点赞评论收藏!

关注下方《享享学AI》

回复【Transformer】获取完整论文

👇

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/361032.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

locust--python实现的分布式性能测试工具

1.locust特点: 1.1 支持Python编写测试用例方案; 1.2 使用requests发送http请求; 1.3 使用协程实现,高并发时消耗更低; 1.4 使用Flask提供 Web UI; 1.5 有第三方插件支持扩展; 2.创建locust 性能…

嵌入式学习第十四天

1.结构体(2): (1)结构体类型定义 (2)结构体变量的定义 (3)结构体元素的访问 (4)结构体的存储: 内存对齐: char 按照1字节对齐 …

人工智能与机器学习——开启智能时代的里程碑

写在前面 前言人工智能与机器学习的概述监督学习、无监督学习和强化学习的基本原理监督学习:无监督学习:强化学习: 机器学习的算法和方法常见的机器学习算法和方法线性回归:决策树:支持向量机:神经网络&…

Vue3项目封装一个Element-plus Pagination分页

前言:后台系统分页肯定是离不开的,但是ui框架都很多,我们可以定义封装一种格式,所有项目按到这个结构来做. 实例: 第一步:在项目components组件新建一个分页组件,用来进行封装组件. 第二步:根据官方的进行定义,官方提供的这些,需要我们封装成动态模式 第三步:代码改造 <!-…

【C/C++】深入理解--函数重载(什么是函数重载?为什么要有函数重载?)

目录 一、前言 二、 函数重载 &#x1f34e;什么是函数重载 &#x1f350;函数重载的条件 &#x1f347;函数重载的注意点 &#x1f349;为什么要有函数重载 &#x1f353;为何C语言不支持函数重载&#xff0c;反倒C可以&#xff1f; &#x1f4a6; Linux环境下演示函数重…

【Git管理工具】

Git管理工具 分支约定主分支辅助分支使用规范&#xff1a;代码提交规范项目权限分支使用 俗话说&#xff1a;没有规矩&#xff0c;不成方圆。遵循一个好的规章制度能让你的工作事半功倍。同时也可以展现出你做事的认真的态度以及你的专业性&#xff0c;不会显得杂乱无章&#x…

【Cocos入门】Cocos中的定时器 (setTimeOut 、setInterval、Schedule )

目录 一、setTimeOut二、setInterval三、Schedule四、全局的schedule 一、setTimeOut 只执行一次 3秒后打印abc。 setTimeout(()>{console.log("abc"); }, 3000);删除计时器&#xff0c;3秒后不会输出abc。 let timeIndex; timeIndex setTimeout(()>{conso…

2024西湖论剑misc方向wp

每年的misc都是最无聊坐牢的 数据安全-easy_tables import pandas as pd import hashlib from datetime import datetimeusers_df pd.read_csv(users.csv) permissions_df pd.read_csv(permissions.csv) tables_df pd.read_csv(tables.csv) actionlog_df pd.read_csv(acti…

外汇监管牌照解析:确保交易安全与合规性

外汇交易中&#xff0c;资金安全与平台监管是大家最关心的话题。监管是评估外汇经纪商是否值得信赖、是否具备相关资质的关键依据&#xff0c;因此选择一家拥有海外合法监管的经济商至关重要。 那么&#xff0c;今天我们就来聊聊全球权威的几大监管机构 — FCA、ASIC、NFA、FSA…

(2024,定性评估、定量评估、人类评估)神经风格转移评估:综述

Evaluation in Neural Style Transfer: A Review 公和众和号&#xff1a;EDPJ&#xff08;进 Q 交流群&#xff1a;922230617 或加 VX&#xff1a;CV_EDPJ 进 V 交流群&#xff09; 目录 0. 摘要 1. 简介 2. 神经风格转移方法 0. 摘要 神经风格转移&#xff08;Neural St…

2024全力推进七大流域数字孪生整体立项建设

2024年伊始&#xff0c;各大流域委密集召开会议或发布重要文件&#xff0c;部署开展各流域数字孪生建设。 1月中旬&#xff0c;《中国水利》杂志刊发了珠江委党组书记、主任王宝恩署名文章《坚定不移推动高质量发展 为中国式现代化贡献珠江水利力量》。珠江委积极践行“江河战略…

PYTHON蓝桥杯——每日一练(简单题)

题目 对于长度为5位的一个01串&#xff0c;每一位都可能是0或1&#xff0c;一共有32种可能。它们的前几个是&#xff1a; 00000 00001 00010 00011 00100 请按从小到大的顺序输出这32种01串。 输入格式 本试题没有输入。 输出格式 输出32行&#xff0c;按从小到大的…

大数据学习之Redis,十大数据类型的具体应用(一)

目录 3. 数据类型命令及落地应用 3.1 备注 3.2 Redis字符串&#xff08;String&#xff09; 单值单value 多值操作 获取指定区间范围内的值 数值增减 获取字符串长度和内容追加 分布式锁 getset(先get后set) 3.3 Redis列表&#xff08;List&#xff09; 简单说明 …

pve web无法访问

一、问题描述 我这边修改了网络,导致ip发生了变更,pve网页版直接登不上了,ssh又可以登录。 二、解决方法 首先确认是不是网络的问题&#xff0c;我这边是内网&#xff0c;有多个路由器&#xff0c;笔记本连的是一个网段&#xff0c;pve又是一个网段&#xff0c;通过ping&…

生信学院|02月02日《云端设计一体化平台—3DEXPERIENCE》

课程主题&#xff1a;云端设计一体化平台—3DEXPERIENCE 课程时间&#xff1a;2024年02月02日 14:00-14:30 主讲人&#xff1a;郭俊辰 生信科技 解决方案顾问 1、云产品发展趋势 2、3DExperience产品的介绍 3、3DExperience DEMO演示 请安装腾讯会议客户端或APP&#xff…

芒果tv数据采集与可视化实现

摘 要 一个爬虫从网上爬取数据的大致过程可以概括为&#xff1a;向特定的网站服务器发出请求&#xff0c;服务器返回请求的网页数据&#xff0c;爬虫程序收到服务器返回的网页数据并加以解析提取&#xff0c;最后把提取出的数据进行处理和存储。因此&#xff0c;一个爬虫程序可…

[Vue3] useRoute、useRouter

useRoute 返回当前路由地址。相当于在模板中使用 $route。必须在 setup() 中调用。用于在组件中获取当前路由的信息&#xff0c;返回一个包含路由信息的对象。这个函数适用于那些不需要监听路由变化的场景&#xff0c;只是获取当前路由信息的静态数据。 useRouter 返回 route…

模拟实现哈希表 - HashMap(Java版本)

目录 1. 概念 2. 冲突-概念 3. 冲突-避免 4. 冲突-避免-哈希函数设计 5. 冲突-避免-负载因子调节 ⭐⭐⭐⭐⭐ 6. 冲突-解决 6.1 冲突-解决-闭散列 6.2 冲突-解决-开散列/哈希桶 ⭐⭐⭐⭐⭐ 7. 冲突严重时的解决办法 8. 模拟实现 1. 概念 顺序结构以及平衡树中&#…

蓝桥杯---牌型种数

小明被劫持到X赌城&#xff0c;被迫与其他3人玩牌。一副扑克牌(去掉大小王牌,共52张)&#xff0c;均匀发给4个人&#xff0c;每个人13张。这时&#xff0c;小明脑子里突然冒出一个问题&#xff1a;如果不考虑花色&#xff0c;只考虑点数&#xff0c;也不考虑自己得到的牌的先后…

HTM标签 - 2

HTM标签 超链接标签 超链接标签&#xff1a;<a> 文本或图片 </a> 用法1&#xff1a;在页面中使用超链接标签跳转到另一个页面 属性描述href页面跳转的地址&#xff0c;相对地址或绝对地址&#xff1b;###&#xff1a;空连接&#xff1b;#&#xff1a;跳转到当前…