ViT/vit/VIT详解

参考:

  • Vision Transformer详解: https://blog.csdn.net/qq_37541097/article/details/118242600

目录:

  • x.1 (论文中)模型理解
  • x.2 代码理解

建议阅读时间:10min


x.1 模型理解

ViT是发表在ICLR2021上的一篇文章,通过将图片分割成一个一个小patch而将Transformer引入了CV。这个ViT的模型可以用下面一张图表示,模型经历的步骤如下:

  • 将图片分成一个一个小的patch
  • 将patch通过Linear Projection of Flattened Patches展平成一个一个token
  • concat一个维度的类别的信息
  • add位置信息Position Embedding(这里面的参数是要训练的)
  • 将向量传入Transformer Encoder中进行训练
  • 将输出的向量中只取类别信息,将类别信息经过MLP Head处理(Linear层/或者Linear + tanh + Linear层)
  • 再传入softmax层,输出类型Class

根据上面的步骤,我们将整个ViT分为如下几个部分理解:

  • x.1.1 Embedding层结构理解
  • x.1.2 Transformer Encoder理解
  • x.1.3 MLP Head理解

请添加图片描述

x.1.1 Embedding层结构理解

以输入224x224的图片大小,ViT-B/16为例,我们将图片切割成16x16的大小,最终我们可以得到 224 ∗ 224 16 ∗ 16 = 196 p i e c e s \frac{224*224}{16*16}=196pieces 1616224224=196pieces的patches,即将1张[224, 224, 3]的图片 ->(切割成) 196张[16, 16, 3]的patches。

请添加图片描述

接着我们将196张[16, 16, 3]patches经过Linear Projection of Flattened Patches转成tokens,即将196个patches的Height,Width和Channel进行展平处理( H ∗ W ∗ c h a n n e l H*W*channel HWchannel)变成196个[768]的tokens。最终变成[196, 768]的tokens输入,其中196是num_query=num_token,768是query_dimension=token_dimension=词向量长度。

同时我们要增加一个类别信息,类别信息的shape为[1, 768],我们将类别信息和token进行(concat)拼接,Cat([1, 768], [196, 768]) -> [197, 768]Q:不是很理解为什么不是196个类别,768长度的词向量变成769的词向量,因为类别应该算是一个特征,而不是样本吧?猜测:可能是因为一整个图片才算一个类别,我们只是输入了一个值?

最后我们需要增加Position Embedding类别信息,这里直接进行(add)加操作,Add([197, 768], [197, 768]) -> [197, 768]这是一个需要训练的操作。通过增加增加Position Embedding,我们的准确率增加了3个点,如下图2。

至此我们得到了[197, 768]的词向量。

请添加图片描述

请添加图片描述

x.1.2 Transformer Encoder

单单使用摞了L层的Transformer Encoder。参考https://blog.csdn.net/qq_43369406/article/details/129306734

我们输入[197, 768]的词向量得到[197, 768]的词向量。

请添加图片描述

Q: L层是什么意思?A:是串行操作,如下图所示:

在这里插入图片描述

x.1.3 MLP Head理解

[197, 768]中取出添加的类别词向量[1, 768],以ViT-B/16为例,在MLP Head中经过一个Linear层,再经过一个softmax层得到最终的类别。

请添加图片描述

x.2 代码理解

代码实现的时候:

  • ∗ * 在Embedding时,我们使用的是Conv2d的卷积层将[224, 224, 3]的图片卷积成[14, 14, 768]的patch,再经过展平,变成[196, 768]的token。
  • 在传入Transformer Encoder前进行了dropout层
  • 在Transformer的Encoder Block层中进行了dropout;且在第二个sub-block中的MLP block中增加了GELU激活函数。
  • 在传出Transformer Encoder后还进行了一次LN处理。

在这里插入图片描述

最终在ViT中采用了3中不同的网络结构,得到的模型效果如下:

请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/8214.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Java并发控制 学习笔记1

一、并发控制的方法 1、悲观锁:常用的互斥锁都属于悲观锁,一个线程访问共享资源时其他线程不能访问。 2、乐观锁:允许同时访问共享数据,只有在提交时利用如版本号检查是否有冲突,应用github。 3、什么时候用乐观锁、什…

携程平台增长部总经理王绩强:原生互联网企业正在经历一场数字升级丨数据猿专访...

‍数据智能产业创新服务媒体——聚焦数智 改变商业以大数据和人工智能为核心,众多新兴技术开始赋能数字营销。于是,智能营销已然从工具化走向了业务化。如今,数字化营销已经成为了企业数字化转型中的重要一环。相较于传统营销逻辑&#xff0…

新版新款影视直播粉红色UI的麻豆CMS源码/带教程/支付已接

基于苹果CMS v10影视系统框架开发的前端模板,带会员中心,可设置试看付费观看等功能。 经过测试及修复,这套源码功能还是很强大的,可以设置一键采集,并且支付我们给他接到了易支付,拓展性强,基本…

【压测】通过Jemeter进行压力测试(超详细)

文章目录背景一、前言二、关于JMeter三、准备工作四、创建测试4.1、创建线程组4.2、配置元件4.3、构造HTTP请求4.4、添加HTTP请求头4.5、添加断言4.6、添加察看结果树4.7、添加Summary Report4.8、测试计划创建完成五、执行测试计划总结背景 通过SpringCloudGateway整合Nacos进…

如何下载ChatGPT-ChatGPT如何写作

CHATGPT能否改一下文章 ChatGPT 作为一种自然语言处理技术,生成的文章可能存在表达不够准确或文风不符合要求等问题。在这种情况下,可以使用编辑和修改来改变输出的文章,使其符合特定的要求和期望。 具体来说,可以采用以下步骤对…

超越竞争对手:利用Facebook A/B测试优化广告效果!

随着社交媒体广告的普及,Facebook已经成为了许多公司推广业务的重要平台。但是,在Facebook上发布广告并不意味着成功,这也让许多公司开始关注如何优化广告效果。 在这篇文章中,我将介绍如何使用A/B测试来优化Facebook广告&#x…

纳米软件关于集成电路测试的分类介绍

集成电路测试可以按照测试目的、测试内容、按照器件开发和制造阶段分类。参照需要达到的测试目的对集成电路测试进行分类,可以分为:验证测试、制造测试、老化测试、入厂测试等。按照测试所涉及内容,集成电路测试可分为:参数测试、功能测试、结构测试等。…

2023/4/4总结

题解: Problem ​​​​​​ A - Codeforces 1.这道题目我们需要判断。 2.如果是奇数,亦或出来的总值不为0,那么每一个数字再去亦或任何一个数字,都不会为0。 3.如果是偶数并且亦或总值为0,那么我们亦或的总值不满…

记录重启csdn

有太多收藏的链接落灰了,在此重启~ 1、社会 https://mp.weixin.qq.com/s/Uq0koAbMUk8OFZg2nCg_fg https://mp.weixin.qq.com/s/yCtLdEWSKVVAKhvLHxjeig https://zhuanlan.zhihu.com/p/569162335?utm_mediumsocial&utm_oi938179755602853888&ut…

使用npm包,全局共享数据,分包

使用 npm 包 1、Vant Weapp 1.1、什么是 Vant Weapp Vant Weapp 是有赞前端团队开源的一套小程序 UI 组件库,助力开发者快速搭建小程序应用。它所使用的是MIT 开源许可协议,对商业使用比较友好。 官方文档地址 https://youzan.github.io/vant-weapp …

Huggingface微调BART的代码示例:WMT16数据集训练新的标记进行翻译

BART模型是用来预训练seq-to-seq模型的降噪自动编码器(autoencoder)。它是一个序列到序列的模型,具有对损坏文本的双向编码器和一个从左到右的自回归解码器,所以它可以完美的执行翻译任务。 如果你想在翻译任务上测试一个新的体系…

游戏运营专员的职责有哪些?提高游戏收入的关键是什么?

游戏运营是将一款游戏平台推入市场,通过对平台的运作,使用户从接触、认识、再到了解实际线上的一种操作、最终成为这款游戏平台的忠实玩家的这一过程。同时通过一系列的营销手段达到提高线上人数,刺激消费增长利润的目的。 游戏运营专员的职…

Go 连接池的设计与实现

为什么需要连接池 如果不用连接池,而是每次请求都创建一个连接是比较昂贵的,因此需要完成3次tcp握手 同时在高并发场景下,由于没有连接池的最大连接数限制,可以创建无数个连接,耗尽文件描述符 连接池就是为了复用这…

高效的实现金蝶云星空ERP与自研MES系统数据集成

一、项目背景 随着企业数字化转型的不断深入,数据集成变得愈发重要。金蝶云星空ERP与自研MES系统之间的数据集成是企业提高管理效率、降低运营成本的关键。为了实现这一目标,企业选择了轻易云数据集成平台进行数据集成。 二、项目实施过程 低耦合、高内…

二叉树的前序遍历(力扣144)

目录 题目描述: 解法一:递归法 解法二:迭代法 解法三:Morris 遍历 二叉树的前序遍历 题目描述: 给你二叉树的根节点 root ,返回它节点值的 前序 遍历。 示例 1: 输入:root […

Unity反编译:AssetStudio资源浏览器及代码查看器

前言 假如你手上有Unity发布出来的exe文件、apk文件或者webGL文件,但就是没有工程源文件,那么,如何从这些文件里面一窥究竟呢?这就需要资源提取工具以及代码反编译工具! 本文所涉软件【文中附有下载链接】&#xff1…

【接口测试工具】Eolink Apikit 快速入门教程

Eolink Apikit 下载安装【官方版】:https://www.eolink.com/apikit 发起 API 测试 进入 API 文档详情页,点击上方 测试 标签,进入 API 测试页,系统会根据 API 文档自动生成测试界面并且填充测试数据。 填写请求参数 首先填写好请…

【创作赢红包】python学习——【第七弹】

前言 上一篇文章 python学习——【第六弹】中介绍了 python中的字典操作,这篇文章接着学习python中的可变序列 集合 集合 1: 集合是python语言提供的内置数据结构,具有无序性(集合中的元素无法通过索引下标访问,并且…

UDP协议详解

目录 UDP协议报文结构 端口号 报文长度 校验和 生成校验和的算法 MD5的特点 UDP协议报文结构 UDP会把载荷数据(也就是通过 UDP socekt,send方法拿来的数据基础上,再前面拼装(相当于字符串拼接此处是二进制的)上几个字节的报头 UDP报头里包含了一些特定的属性,这些属性携带…

阿里云linux云服务器 安装指定版本node.js

我们在实例管理中找到自己的服务器 然后点击右侧的 远程连接 接着点击理解登录 进入命令窗口 我们在这上面输入 curl -h阿里云的服务器都还是最好会有 curl的 然后 我们输入 curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.34.0/install.sh | bash下把nvm下下…
最新文章