融合创新!全局注意力+局部注意力,训练成本直降91.6%

全局注意力结合局部注意力可以让模型在处理数据时,既不会丢失重要的局部细节,也能考虑到整个数据集中的全局结构,从而在保持模型计算效率的同时,提高模型的表达能力。

这种策略相较于传统的单一注意力机制,能够更全面地理解输入数据,同时捕捉长距离依赖关系和细节信息。对于论文er来说,是个可发挥空间大、可挖掘创新点多的研究方向。

以谷歌Quoc Le团队的FLASH模型为例:

FLASH是一种解决现有高效Transformer变体质量和经验速度问题的实用解决方案。它通过以下方式实现全局注意力和局部注意力的结合:

分块混合注意力(Mixed Chunk Attention):FLASH模型采用了一种分块的策略,将输入数据分成多个块,并在每个块内部进行局部注意力计算。这样可以捕捉到每个数据块内部的详细信息,同时减少整体的计算量。

全局注意力单元(GAU):FLASH模型使用了全局注意力单元(GAU),这是将门控线性单元(GLU)和注意力机制结合起来的一种结构。GAU的设计允许模型在处理数据时考虑到更广泛的上下文信息,从而实现全局注意力的效果。
 


FLASH首次不仅在质量上与完全增强的 Transformer相当,而且在现代加速器的上下文大小上真正享有线性可扩展性,训练成本仅有原版1/12。

本文分享全局注意力+局部注意力8种结合创新方案,有最新的也有经典的,可借鉴的方法和创新点我做了简单介绍,原文以及相应代码都整理了,方便同学们学习。

论文和代码需要的同学看文末

InverseMatrixVT3D: An Efficient Projection Matrix-Based Approach for 3D Occupancy Prediction

方法:论文介绍了一种名为InverseMatrixVT3D的方法,用于将多视图图像特征转换为三维特征体,以进行三维语义占用预测。该方法利用两个投影矩阵存储静态映射关系,并利用矩阵乘法高效地生成全局鸟瞰特征和局部三维特征体。通过在多视图图像特征图和投影矩阵之间进行矩阵乘法,生成三维特征体和鸟瞰特征。通过全局局部融合模块将这两种特征融合在一起,得到最终的三维特征体。

创新点:

  • 提出了基于投影矩阵的方法来构建局部的3D特征体积和全局的鸟瞰图特征。

  • 提出了全局局部融合模块,将全局的鸟瞰图特征和局部的3D特征体积结合起来,得到最终的3D体积。

TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic Token Mixer for Visual Recognition

方法:论文提出了一种名为D-Mixer的新型令牌混合器,以输入相关的方式聚合稀疏的全局信息和局部细节,产生大的有效感受野和强大的归纳偏差。作者通过将D-Mixer作为令牌混合器,还设计了一种名为TransXNet的新型强大视觉骨干网络。

创新点:

  • 提出了一种高效的双动态令牌混合器(D-Mixer),利用重叠空间缩减注意力(OSRA)和输入依赖深度卷积(IDConv)提供的混合特征提取。通过将基于D-Mixer的块堆叠到深度网络中,利用先前块中收集的局部和全局信息动态生成IDConv中的卷积核和OSRA中的注意力矩阵,通过融合强归纳偏差和扩展有效感受野,使网络具备更强的表示能力。

  • 设计了一种名为TransXNet的新型混合CNN-Transformer网络,通过交替使用D-Mixer和MS-FFN构建。

  • 一个网络应该具有较大的感受野和归纳偏差,以捕捉丰富的上下文信息。为了实现较大的感受野,应该在网络的所有阶段中封装一个高效的全局自注意机制。作者还发现将动态卷积与全局自注意相结合可以进一步扩大感受野。

Twins: Revisiting the Design of Spatial Attention in Vision Transformers

方法:提出了两种新的视觉变压器架构,即Twins-PCPVT和Twins-SVT。研究发现,全局子采样注意力在PVT中非常有效,并且在应用合适的位置编码时,其性能可以与甚至优于最先进的视觉变压器(如Swin)相媲美。

作者还提出了一种设计精巧但简单的空间注意力机制,使得这些架构比PVT更高效。该注意力机制受到广泛使用的可分离深度卷积的启发,因此被命名为空间可分离自注意力(SSSA)。Twins-PCPVT和Twins-SVT中的注意力操作都是高效且易于实现的。

创新点:

  • 全局子采样注意力(GSA):GSA是一种高效的全局自注意力机制,用于处理远距离和全局信息。它通过在每个局部注意力块之后添加额外的标准全局自注意力层实现,从而实现了跨组信息交换。

  • 空间可分离自注意力(SSSA):SSSA是一种精心设计但简单的空间注意力机制,通过模仿广泛使用的分离式深度卷积实现。SSSA由两种类型的注意力操作组成:(i)局部分组自注意力(LSA),用于捕获细粒度和短距离信息;(ii)全局子采样注意力(GSA),用于处理远距离和全局信息。

  • Twins-PCPVT:Twins-PCPVT是第一个提出的视觉Transformer架构。它利用全局子采样注意力(GSA)和适用的位置编码,实现了与最先进的视觉Transformer(如Swin)相媲美甚至更好的性能。

MaxViT: Multi-Axis Vision Transformer

方法:论文引入一种名为Multi-axis Vision Transformer (MaxViT)的视觉模型,该模型能够在整个网络的浅层到深层阶段都实现全局和局部感知,并在各种视觉任务中取得卓越的性能。

创新点:

  • Max-SA:一种新型的Transformer模块,能够在单个块中同时执行局部和全局空间交互,与完整的自注意力相比,提供了更大的灵活性和效率。

  • 多轴注意力:一种多轴方法,通过分解空间轴将完整大小的注意力分解为两个稀疏形式(局部和全局),允许以线性复杂度进行局部和全局交互。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“全局局部”获取全部论文+代码

码字不易,欢迎大家点赞评论收藏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/496157.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

通用指南-营销和设计中的增强现实(AR)

原文作者:Superside 翻译:数字化营销工兵 --- 经典万字长文,权威解读,分享经典,预计阅读完需要30分钟,建议收藏! 目录 一、引言 为什么要尝试AR AR到底是什么?营销人员和创意人…

巨控NET400网关:工业通讯的未来之门

描述:在数字化时代,工业通讯作为智能制造的核心,承载着数据交换、设备控制等关键任务。巨控NET400以其独特的优势,为各行各业的智能转型提供了强大的技术支持。本文深入探讨NET400的核心功能与主要优势,展望其在工业通…

T1 神奇苹果桶 (25分) - 小米前端笔试编程题解

考试平台: 赛码 题目类型: 20道选择 2道编程题 考试时间: 2024-03-23 (两小时) 题目描述 小希在森林冒险的时候发现一个神奇的木桶,某些时会凭空出现一些苹果,小希很解地大家分享了这一个神奇…

Markdown 编辑器使用

CSDN 在博客开头加上 [TOC](你的目录标题)就可以根据博客内容自动生成如下所示的目录: 你的目录标题 Markdown 编辑器功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表无序列表…

1.java openCV4.x 入门-环境搭建

专栏简介 💒个人主页 📖心灵鸡汤📖大家 📰专栏目录 点击上方查看更多内容 环境搭建 一、开发环境二、环境搭建1.openCV安装1.下载程序包 2.程序包安装3.搭建项目 三、非必要资源1.扩展库2.cmake 一、开发环境 开发工具 i…

structured bindings is supported from c++17

完整示例&#xff1a; #include <iostream> #include <format> #include <iomanip>void test_00(){struct Box{int width_;int height_;std::string name_;};Box box{3,4,"amazing"};auto [w, h, name]{box};//auto [w, h, name] box;std::cout …

openwrt在校园网环境下开启nat6 (ipv6 nat)

如果将路由器接入校园网&#xff0c;我们只能获得一个128位掩码的ipv6地址。这个地址仅供路由器本身使用&#xff0c;而路由器后的设备无法获取到ipv6地址&#xff0c;因此我们可以利用网络地址转换&#xff08;NAT&#xff09;为这些设备分配本地ipv6地址。 下面是openwrt开启…

TSINGSEE青犀推出县域治理视频基座数字化、智慧化解决方案

一、方案背景 县域治理方案是我国地方治理体系的重要组成部分&#xff0c;对于促进县域经济社会发展、维护社会稳定、推进全面深化改革具有重要意义。随着科技的不断进步&#xff0c;视频监管已经成为了现代社会治理的重要手段之一。县域治理视频监管方案是通过视频监控、数据…

高效 CUDA 调试:将 NVIDIA Compute Sanitizer 与 NVIDIA 工具扩展结合使用并创建自定义工具

高效 CUDA 调试&#xff1a;将 NVIDIA Compute Sanitizer 与 NVIDIA 工具扩展结合使用并创建自定义工具 NVIDIA Compute Sanitizer 是一款功能强大的工具&#xff0c;可以节省您的时间和精力&#xff0c;同时提高 CUDA 应用程序的可靠性和性能。 在 CUDA 环境中调试代码既具有挑…

C#全新一代医院手术麻醉系统围术期全流程源码

目录 一、麻醉学科的起源 二、麻醉前访视与评估记录单 患者基本信息 临床诊断 患者重要器官功能及疾病情况 病人体格情况分级 手术麻醉风险评估 拟施麻醉方法及辅助措施 其他需要说明的情况 访视麻醉医师签名 访视时间 与麻醉相关的检查结果 三、手术麻醉信息系统…

Laravel扩展包的开发

扩展包的开发 1. 创建一个新项目&#xff0c;初始化扩展包配置 首先创建一个全新的Laravel项目&#xff1a; composer create-project --prefer-dist laravel/laravel laravelPkg 接下来&#xff0c;在项目中创建目录package/{your_name}/{your_package_name} mkdir -p pa…

STM32硬件I2C通信外设

文章目录 前言I2C硬件介绍10 位地址模式硬件I2C的引脚定义I2C框图主机发送序列图主机接收序列图 硬件I2C读写MPU6050总结 前言 本文主要介绍stm32自带的I2C通信外设&#xff0c;对比与软件模拟I2C&#xff0c;硬件I2C可以自动生成时序&#xff0c;时序的操作更加及时规范&…

什么是网页抓取 Web Scraping?如何进行网页抓取?

现在&#xff0c;不论是个人开发者还是庞大的企业都需要从互联网抓取大量数据&#xff0c;而网页抓取&#xff08;Web Scraping&#xff09;技术正是获取互联网上无尽信息宝库的一把钥匙。通过网页抓取工具&#xff0c;我们可以快速收集产品价格、市场趋势、用户评论等关键数据…

uniapp h5 touch事件踩坑记录

场景&#xff1a;悬浮球功能 当我给悬浮球设置了 position: fixed; 然后监听悬浮球的touch事件&#xff0c;从事件对象中拿到clientY和clientX赋值给悬浮球的left和top属性。当直接赋值后效果应该是这样子&#xff1a; 注意鼠标相对悬浮球的位置&#xff0c;应该就是左上角&a…

力扣_876_ 链表的中间结点(c语言)

题目描述&#xff1a; 解题方法&#xff1a; struct ListNode* middleNode(struct ListNode* head) {struct ListNode* l1,*l2;l1l2head;while(l2&&l2->next){l1l1->next;l2l2->next->next;}return l1; }

element UI季度选择器的实现

效果展示 用elementUI的select实现季度选择器 代码实现 generateQuarterOption放在methods中&#xff0c;需要近几年的只需要修改第一个循环的次数即可&#xff0c;mounted生命周期函数中调用generateQuarterOption() generateQuarterOption() {//近3年所有季度let now ne…

6行代码,1行命令!轻松实现多模态(视觉)模型离线推理 在线服务

早在去年年底&#xff0c;LMDeploy 已经悄悄地支持了多模态&#xff08;视觉&#xff09;模型&#xff08;下文简称 VLM&#xff09;推理&#xff0c;只不过它静静地躺在仓库的 examples/vl 角落里&#xff0c;未曾与大家正式照面。 LMDeploy 开源链接&#xff1a; https://gi…

Android | 开发过程遇到的报错以及解决方法

注&#xff1a; 此博客为记录个人开发过程中遇到的报错问题以及解决方案。 由于不同版本环境等因素影响&#xff0c;解决方案对其他人可能无效。 本博客仅提供一种解决思路&#xff0c;具体问题请具体分析。 报错&#xff1a;Connection timed out: connect解决&#xff1a;在G…

763. 划分字母区间(力扣LeetCode)

763. 划分字母区间 题目描述 给你一个字符串 s 。我们要把这个字符串划分为尽可能多的片段&#xff0c;同一字母最多出现在一个片段中。 注意&#xff0c;划分结果需要满足&#xff1a;将所有划分结果按顺序连接&#xff0c;得到的字符串仍然是 s 。 返回一个表示每个字符串…