【YOLOv8改进[注意力]】YOLOv8添加DAT(Vision Transformer with Deformable Attention)助力涨点

目录

一 DAT

二 YOLOv8添加DAT助力涨点

1 总体修改

2 配置文件

3 训练

其他


一 DAT

官方论文地址:https://openaccess.thecvf.com/content/CVPR2022/papers/Xia_Vision_Transformer_With_Deformable_Attention_CVPR_2022_paper.pdf

Transformers最近在各种视觉任务上表现出色。这个大的,有时甚至是全局的,感受野赋予了Transformer模型比它们的同行CNN模型具有更高的表示能力。然而,单纯地扩大接受野也会引起一些问题。一方面,在ViT中使用密集关注会导致过多的内存和计算成本,并且特征可能受到超出兴趣区域的不相关部分的影响。另一方面,PVT或Swin Transformer中采用的稀疏关注是数据不可知的。为了解决这些问题,本文提出了一种新的可变形自注意力模块其中自注意力中的键和值对的位置以根据数据需要的方式选择。这种灵活的方案使自注意力模块能够专注于相关区域并捕获更多信息特征。在此基础上,提出了一种具有可变形注意力的通用backbone模型——Deformable Attention Transformer,用于图像分类和密集预测任务。通过广泛的试验, 结果表明,模型在综合基准上取得了持续改进的结果。

官方代码地址:GitHub - LeapLabTHU/DAT: Repository of Vision Transformer with Deformable Attention (CVPR2022) and DAT++: Spatially Dynamic Vision Transformerwith Deformable Attention

本文提出了一种Deformable Attention Transformer,它是一种新型的分层视觉Transformer,可以同时适应图像分类和密集预测任务,即插即用。利用可变形的注意力模块,模型能够以数据依赖(关注重要的区域)的方式学习稀疏注意力模式并建模几何变换,只关注图像的一小部分关键区域,减少计算量。简言之,改善了视觉Transformer的效率和性能。大量的实验证明了模型在竞争基线上的有效性。

上图1为DAT与其他Vision Transformer模型和CNN模型中DCN的比较。

红星和蓝星表示不同的查询,带实线边界的掩码表示查询所涉及的区域。

以数据不可知的方式:

  • (a) ViT对所有查询采用全关注
  • (b) SwinTransformer采用分割窗注意力

以数据依赖的方式:

  • (c) DCN为每个查询学习不同的变形点
  • (d) DAT学习所有查询的共享变形点

上图2是可变形的注意力机制的描述。

(a)表示可变形注意力的信息流。在左侧部分,一组参考点被均匀放置在特征图上,这些参考点的偏移量从查询通过偏移网络中学习。然后根据变形点从采样特征投影出变形的键和值,如图所示。通过变形点计算相对位置偏差,增强了输出变换特征的多头注意力。为了清晰的展示,上图只展示了4个参考点,实际上在实际实现中还有更多的参考点。

(b)显示了偏移量生成网络的详细结构,标记了每层输入和输出特征图的大小。

上图3是DAT架构。N1到N4是堆叠连续的局部注意和移动窗口/可变形注意块的数量。K和s表示patch embeddings中卷积层的核大小和步长。

下图是COCO验证集上最重要的键的可视化。橙色圆圈表示在多头上传播注意力得分最高的关键点。半径越大得分越高。请注意,右下角的图像显示了一个人挥舞着球拍打网球。

二 YOLOv8添加DAT助力涨点

ultralytics的版本为8.1.47,如下图所示:

1 总体修改

① 添加DAT.py文件

ultralytics/nn/modules目录下新建DAT.py文件,内容如下所示:

② 修改ultralytics/nn/tasks.py文件

具体的修改内容如下图所示:

  1. 对于无参数的注意力机制,到此就完成了全部的修改
  2. 对于有参数的注意力机制,还要进行额外的修改,如下

搜索“parse_model”,然后修改其内容,如下所示:

本文的方法需要按照有参数的注意力机制进行修改,但是在yaml文件中不需要传入参数,因为已经设置了自动计算的方式。

2 配置文件

yolov8_DAT.yaml的内容如下所示:

3 训练

上述修改完毕后,开始训练吧!🌺🌺🌺

训练示例如下:

yolo task=detect mode=train model=cfg/models/v8/yolov8_DAT.yaml data=cfg/datasets/coco128.yaml epochs=300 batch=16 device=cpu project=yolov8

先关注 + 点赞 + 评论,然后私信我要DAT.py文件和yolov8_DAT.yaml文件吧

其他

1 报错 💔💔💔

ModuleNotFoundError: No module named 'einops'

解决方法 💚 💚 💚

pip --default-timeout=100 install einops -i https://pypi.tuna.tsinghua.edu.cn/simple

问题解决啦!!!🌺🌺🌺

2 报错 💔💔💔

ModuleNotFoundError: No module named 'timm'

解决方法 💚 💚 💚

pip --default-timeout=100 install timm -i https://pypi.tuna.tsinghua.edu.cn/simple

问题解决啦!!!🌺🌺🌺

到此,本文分享的内容就结束啦!遇见便是缘,感恩遇见!!!💛 💙 💜 ❤️ 💚 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/568062.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

BBS前后端混合项目--01

总路由 # urls.py """BBS1 URL ConfigurationThe urlpatterns list routes URLs to views. For more information please see:https://docs.djangoproject.com/en/3.2/topics/http/urls/ Examples: Function views1. Add an import: from my_app import views2…

上网行为管理软件有哪些?三款常用上网行为管理软件评测

互联网的普及,企业和个人对于网络安全和信息保护的需求越来越高。为了确保网络环境的安全和稳定,上网行为管理软件应运而生。本文将对三款常用的上网行为管理软件进行评测,分别是域智盾、Splunk Enterprise Security和安企神。 1、域智盾 域…

什么是正向代理和反向代理

正向代理和反向代理是两种不同的代理服务器配置方式,它们在代理的方向和作用上有所不同。 一、正向代理(Forward Proxy) 代表客户端发送请求到其他服务器的代理服务器。客户端将请求发送给正向代理服务器,然后由正向代理服务器代…

Facebook的区块链应用深度分析

去中心化身份验证的意义 在当今数字化社会中,身份验证的重要性不言而喻。对于Facebook这样的大型社交媒体平台来说,确保用户的身份真实性和数据的安全性是至关重要的。传统的中心化身份验证方式存在一定的安全风险和可信性问题,而去中心化身…

Midjourney是什么?Midjourney怎么用?怎么注册Midjourney账号?国内怎么使用Midjourney?多人合租Midjourney拼车

Midjourney是什么 OpenAI发布的ChatGPT4引领了聊天机器人的竞争浪潮,随后谷歌推出了自己的AI聊天机器人Bard,紧接着微软推出了Bing Chat,百度也推出了文心一言,这些聊天机器人的推出,标志着对话式AI技术已经达到了一个…

windows系统下python解释器安装

一. 简介 本文简单学习一下python开发学习中,所使用到的 python解释器的下载安装。后面再学习下载安装python的 IDE开发工具,这里要安装的python的 IDE开发工具为 PyCharm。 二. Windows系统下python解释器与IDE开发工具下载安装 1. python解释器下载…

大型集团企业 怎么实现多区域文件交换?

很多大型集团企业,都会在全国各地,甚至海外,都设立分支机构,还有银行、邮政这类机构,都会在全国各地设立多个支行和网点,所以在日常经营过程中,都会存在多区域文件交换的场景。 大型集团企业在进…

嵌入式Linux八股(三)——计算机基础

三、计算机基础 01.操作系统 01.进程几种状态 02.锁 互斥锁:互斥锁是一种用于线程同步的工具,能够保证同一时刻只有一个线程可以访问共享资源。如果一个线程已经取得了互斥锁,其他尝试获得该锁的线程将会被阻塞,直到第一个线程…

Spring与SpringBoot在配置读取方式上的区别

1. 问题说明 将Springboot项目中自定义的一个扩展工具类移植到Spring框架项目中的时候发现一个问题。在springboot中application.yml中的配置内容可以从Environment中获取,但是在spring中context:placeholder对应的配置文件中的配置却无法从Environment中获取。为了…

Power BI 如何创建页面导航器?(添加目录按钮/切换页面按钮)

Power BI 中页导航是什么? 在Power BI中,页导航(Page Navigation)是指在报告中创建多个页面(页),然后允许用户在这些页面之间进行导航的功能。 如下图所示,页导航的选项和报告中的…

每日两题 / 438. 找到字符串中所有字母异位词 238. 除自身以外数组的乘积(LeetCode热题100)

438. 找到字符串中所有字母异位词 - 力扣&#xff08;LeetCode&#xff09; 记录p串每个字符出现次数 维护与p串等长的滑动窗口&#xff0c;记录其中每个字符的出现次数 每次滑动后将当前次数与p串的次数比较即可 class Solution { public:vector<int> findAnagrams(s…

软件项目经理需要具备这 11 个能力

当前软件开发技术更新换代越来越快&#xff0c;各种项目实施管理思想也日新月异&#xff0c;作为一个软件项目经理&#xff0c;需要具备这 11 种能力&#xff1a; 1. 项目管理能力 了解项目管理的基本原则和方法&#xff0c;包括制定项目计划、资源分配、风险管理、问题解决和…

JAVA:Kettle 强大的开源ETL工具

请关注微信公众号&#xff1a;拾荒的小海螺 1、简述 Kettle&#xff08;Pentaho Data Integration&#xff09;&#xff1a;强大的开源ETL工具Kettle&#xff0c;又称作Pentaho Data Integration&#xff0c;是一款流行的开源ETL&#xff08;Extract, Transform, Load&#x…

【Unity实战】值得关注的Addressable新特性

如果您是最近起的Unity项目且有用到Addressable作为内容管理&#xff0c;你可能需要注意一下1.21.15版本的变化&#xff1a; [1.21.15] - 2023-08-03 Fixed an issue where using binary catalogs causes a crash on Android with ARM7.DownloadDepedenciesAsync no longer l…

基于RT-Thread的智能家居助手

一、项目简介 智能家居助手主要基于RT-Thread开发的&#xff0c;该系统主要分为语音子系统&#xff0c;环境监测子系统&#xff0c;智能控制子系统&#xff0c;智能网关子系统&#xff0c;音乐播放器&#xff0c;云端以及应用软件七大部分。语音子系统可通过语音进行人机交互来…

Spring是如何解决循环依赖的

简介 所谓循环依赖指的是&#xff1a;BeanA对象的创建依赖于BeanB&#xff0c;BeanB对象的创建也依赖于BeanA&#xff0c;这就造成了死循环&#xff0c;如果不做处理的话势必会造成栈溢出。Spring通过提前曝光机制&#xff0c;利用三级缓存解决循环依赖问题。 变量描述single…

[lesson49]多态的概念和意义

多态的概念和意义 函数重写回顾 父类中被重写的函数依然会继承给子类 子类中重写的函数将覆盖父类中的函数 通过作用域分辨符(::)访问父类中的同名成员 多态的概念和意义 面向对象中期望的行为 根据实际的对象类型判断如何调用重写函数父类指针(引用)指向 父类对象则调用…

CentOS配置JDK8环境并安装配置neo4j

1. 工具安装 1. 安装wget yum install -y wget2. 安装vim yum install -y vim-enhanced2. 配置JDK 1. 安装JDK 先到官网下载jdk8的压缩包&#xff0c;点我传送&#xff0c;并将压缩包上传到虚拟机的/usr/local目录下。 cd /usr/local # 进入 /usr/local目录 tar -zxvf jdk-…

裤裤带你一起学C语言内存函数啦!

目录 1.memcpy的使用和模拟实现 2.memmove使用和模拟实现 3.memset函数的使用 4.memcmp函数的使用 内存函数在<string.h>库中&#xff0c;我们使用内存函数必须先引入<string.h>头文件 1.memcpy的使用和模拟实现 memcpy的函数原型如下&#xff1a; void * m…

MLLM | Mini-Gemini: 挖掘多模态视觉语言大模型的潜力

香港中文、SmartMore 论文标题&#xff1a;Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models Code and models are available at https://github.com/dvlab-research/MiniGemini 一、问题提出 通过更高分辨率的图像增加视觉标记的数量可以丰富…
最新文章