【计算机视觉】万字长文详解:卷积神经网络

在这里插入图片描述
以下部分文字资料整合于网络,本文仅供自己学习用!

一、计算机视觉概述

在这里插入图片描述
如果输入层和隐藏层和之前一样都是采用全连接网络,参数过多会导致过拟合问题,其次这么多的参数存储下来对计算机的内存要求也是很高的
在这里插入图片描述
解决这一问题,就需要用到——卷积神经网络

这是一种理解卷积的角度(至少在吴恩达老师这个教学视频中是),也是我之前没有想到的。其实在该刚开始接受卷积神经网络时,我一直很想弄清卷积的真正含义,为此也学习了一些,和有自己的一些理解,详见后文2.6小节!

二、卷积神经网络

2.1:卷积运算

卷积运算是卷积神经网络的基本组成单元之一

这里将从边缘检测(edge detection)入手,举例来介绍卷积神经网络

在这里插入图片描述
通过这种卷积运算,我们可以检测到图像的边缘:(我们把中间的3x3的矩阵称为:过滤器、边缘检测器、卷积核
在这里插入图片描述
下面来讲,如何将这种卷积运算作为基本单元,运用到卷积神经网络中。

  • 正边缘(positive edges)和负边缘(negative edges):由亮变暗和由暗变亮
    在这里插入图片描述

  • 其他的边缘检测器(卷积核)
    在这里插入图片描述

  • 如何让算法自己学习得到边缘检测器,而不是像上面那样手动设计(传统的计算机视觉)——卷积神经网络
    🦄原理就是把卷积核中的数看作参数,利用反向传播(back propagation)去学习
    在这里插入图片描述
    这种学习得到的卷积核,会比计算机视觉研究人员所精心选择的更加稳定

在具体讲如何利用反向传播来学习得到卷积核的这9个参数之前,让我们学习一下卷积神经网络——卷积计算的底层架构的非常重要的组成部分

2.1.1:填充(padding)

首先看不对图像做填充的情况:
即:nxn的图像和fxf的卷积核进行卷积,得到结果大小为:(n-f+1)x(n-f+q)
在这里插入图片描述

💐这样卷积的缺点有:

  • shrinky output:这样得到的卷积结果会比原图像小,而没通过一层这样的卷积,图像就会缩小,在深层卷积神经网络中,最后得到的图像就会非常的小
  • throw away info from the edge:丢失边缘像素的信息。即对比于图像中其他像素提供的信息,边缘像素在卷积过程中只被利用一次或少次,这样我们会丢失掉一些边缘信息。
    在这里插入图片描述
    所以为了解决这两个问题,使用填充,对原图像进行像素填充
    在这里插入图片描述

总结一下,上面其实涉及到两种常用卷积:

  • valid convolutions:即不对原图像进行任何填充
  • same convolutions:对原图像进行填充并且保证卷积结果图像和原图像大小相同
    在这里插入图片描述
    由上图可知,对于Same convolutions,我们通常需要保证卷积核fxff奇数时,才可保证p = (f-1)/2 ,使得卷积结果大小与原图像大小相同。这也解释了为什么通常我们所使用的卷积核大小都是3x35x5。另外一个原因是,当卷积核是奇数时,会有一个中心像素点,事实上对图像进行卷积时,这个特殊的中心像素点是不可或缺的(你可以试想一下如果卷积核是偶数,你该如何卷积),中心像素可以很好的描述卷积核的位置,使用奇数的卷积核这也是计算机视觉所约定俗成的一种传统。

2.1.2:步长(stride)

上文所讲到的,也是默认卷积运算中步长为1,事实上,步长也是可以设定的。和padding一样,步长不同,也会影响卷积结果。下图是设置步长为2时的卷积示例
在这里插入图片描述

总结一下:(注意,这里的向下取整的实际含义是,保证卷积核始终在原图像填充后的那个图像中,而不能超出)
在这里插入图片描述

2.1.3:交叉相关(cross-correlation)

这一小节其实是一个概念补充。事实上学过数字信号处理的话,对于图像卷积(图像其实就是一个2维的数字信号),会将卷积核进行翻转后,再进行元素相乘、相加。事实上在计算机视觉领域,省略了翻转这一步骤,而是直接进行相乘、相加,所以在数学领域会将其称为交叉相关(corss-correlation),但是在深度学习和计算机视觉及其相关文献中,通常还是会将其称为卷积(convolutions).
在这里插入图片描述

2.1.4:3维卷积

事实上,上面所讲到的卷积都是对于2维图像而言(也就是灰度图),也成为二维卷积。而对于包含RGB这种三维图像,则属于三维卷积

在这里插入图片描述
但是你可能和我一样有相同的疑问:这有什么用呢?得到的结果还是二维

像下图展示这样,通过设置3D卷积核不同通道的参数值,你可以选择只检测红色通道的边缘,同时把其他通道的卷积核的参数值设置为0.或者只是把三个通道的卷积核参数设置为一样,这样的意义在于即使输入进来的是RGB图像也可以不用将其转为灰度图像而直接进行卷积计算(效果也是一样的)。
在这里插入图片描述

还有一个问题,就是:上文中,我们只是单单检测一种边缘——垂直。如果想同时检测多种边缘呢?比如同时检测水平和竖直边缘。那么我们需要多个检测器,或者说多个3D卷积核、过滤器,就像下图这样。但是注意到,得到的卷积结果的第三维度的大小就是使用的3D卷积核的个数。
在这里插入图片描述

2.2:卷积网络的一层

对卷积结果进行每个元素相加偏差b,并对其进行非线性变化,再对各个3D卷积核得到的结果进行整合于是得到4x4x2的一层卷积网络的输出结果。

在这里插入图片描述

2.2.1:和传统神经网络的对比

其实过程还是一致的

  1. 首先进行线性运算,将输入a[0]和参数W(对应的就是卷积核)进行相乘再相加
  2. 再加上偏差b
  3. 最后通过激活函数(即进行非线性变换)

在上面例子中,我们有2个3D卷积核,也就是说有2个特征(features)——卷积核的个数代表特征,是必须get到的,特别是在之后理解为什么卷积神经网络的底层原理上(不是卷积神经网络是什么,而是卷积神经网络为什么能行)。

我们再来解释一下本文最开始提到的,传统的全连接神经网络容易过拟合的问题(图像增大,则参数增多),而为什么卷积网络不会。

如下图,不管输入图像多大,卷积网络这一层需要通过训练从而学习得到的参数个数总是固定的:(27+1)x10.由此可知,卷积神经网络不易产生过拟合(overfitting)的问题。
在这里插入图片描述

2.2.2:Summary of notations

在这里插入图片描述

注意:在一些文献中,会把通道数放在前面,宽、高放在后面

2.3:卷积神经网络的简单实例

如下图,经过几层卷积后,最后被一步会把得到的卷积结果进行flatten展平,输入进全连接神经网络,通过逻辑回归或softmax进行分类。
在这里插入图片描述

这里我们可以观察到的是,输入图像(通常比较大),但随着卷积神经网络的深入,与开始图像会保持大小几乎不变,但随着输入图像会逐渐变小,而通道数逐渐增加

2.3.1:超参数(hyperparameter)

如上图,我们把箭头下方的那些参数(filter的个数、步长、padding…)称为超参数,选择这些超参数是卷积神经网络设计过程中的主要工作。

2.3.2:组成

在一个典型的卷积神经网络中,完整应该由以下3部分组成

  • 卷积层
  • 池化层
  • 全连接层
    在这里插入图片描述

2.3.3:卷积层的多层叠加

我们前面提到过随着卷积层的深入,通道数增大而图像减小。这样得到的好处是,每层使用较小的卷积核如3x3也能获得更大的感受野,只要叠加更多的卷积层,就能让感受野覆盖到整个图片。这也是为什么我们需要使用多个卷积层进行叠加。

那什么又是感受野呢?

2.3.4:感受野(Receptive Field)

感受野是一个非常重要的概念,receptive field往往是描述两个feature maps A/B上神经元的关系,假设从A经过若干个操作得到B,这时候B上的一个区域areaB只会跟a上的一个区域areaA相关,这时候areaA成为areaB的感受野。用图片来表示:
在这里插入图片描述
在上图里面,map3里1x1的区域对应map2的receptive field是那个红色的7x7的区域,而map2里7x7的区域对应于map1的receptive field是蓝色的11x11的区域,所以map3里1x1的区域对应map 1的receptive field是蓝色的11x11的区域。

2.4:池化层

我们先来看两种池化类型的示例:
在这里插入图片描述

在这里插入图片描述

2.4.1:原理

池化操作的作用有两个

  • 减轻计算负担
  • 增加感受野

吴恩达老师在视频中也说到过,池化操作背后深刻的原理其实也不见得有人能说得透彻清除,本质上就是因为实验效果好,可以加。

其实非要去理解的话,也是可以的,因为图像本身就是存在冗余信息的,用4个像素所表示特征信息可以用1个像素代替。从原图像中进行最大值或均值采样后(也就是所谓的池化),可以更好的把图像中的特征得到、识别,既然这样,能加为什么不加呢?

还需要补充一点是,在alphaGo的算法背后,利用的也是卷积神经网络,不同的是只有卷积层而没有池化层,因为在棋盘上每一个像素点都至关重要,不能因为减轻计算负担而随意舍去。这也是理解池化的一个例子。

2.4.2:总结

需要注意两点

  • 池化层的超参数是人工设定的,不需要通过训练从而学习得到
  • 池化层的最大值和平均值采样是单独作用于输入的每一个通道的。池化结果的通道数和输入的通道数相同。
    在这里插入图片描述

2.5:完整的卷积神经网络示例

注意:由于池化层没有需要学习的参数,只有超参数,所以通常会把卷积层和池化层两层统称为一层——1 layer

在这里插入图片描述

当然,关于卷积层和池化层的安排,上图只是一种示例,实际上,还有可能是多个卷积层后面跟着一个池化层,或者一些特殊场景(如上文提到过的alphaGo的棋盘例子中)根本没有池化层。

在这里插入图片描述
你需要清除以下几点

  1. 池化层没有任何需要学习的参数
  2. 卷积层趋向于拥有越来越少的参数
  3. 多数参数存在于全连接神经网络上

2.6:卷积神经网络的原理

其实上文一直在谈的是——卷积神经网络是什么,由什么组成等等。但是我觉得最重要的还是理解:为什么,为什么卷积神经网络可以。(虽然在本文最开始也把传统的全连接神经网络和带卷积的神经网络进行的简单的对比,说明为什么需要采用卷积而不是全连接,但我觉得那只是一方面)

首先我们需要理解,卷积神经网络,其实是计算机视觉+深度学习。在之前的机器学习中我们知道,通过输入数据,可以很好的进行分类、回归。将计算机视觉和深度学习结合起来,其实本质还是一样的,不同的在于:输入的数据,这也是为什么需要加入卷积层,而不能直接运用全连接层处理数据的原因。

比如之前讲的预测房价,输入就是房子大小、年龄这些基本的单特征。而对于计算机而言,你给它一张图片,只是一个三维或者二维矩阵,没有任何特征信息,换句话来说,直接把图片输入到全连接神经网络,即将像素点作为特征,这样的特征难以利用和复用以及进行比较。而卷积层的作用呢?提取特征,而且是有用的可复用的局部特征。通过卷积层提取到特征,并输入到全连接层进行相应的和之前机器学习中学到的传统的全连接神经网络进行特征信息处理并进行预测一模一样。一言蔽之:卷积神经网络识别图像的第一步:利用卷积层提取图像的局部特征。
在这里插入图片描述
在这里插入图片描述

OK,现在我们理解了卷积的作用——提取图像中的特征信息。我们现在的问题就缩小到了——卷积为什么能提取特征?提取的特征又是如何形式的?为什么这种方式提取的特征有效?

2.6.1:特征提取

从上文所讲的卷积操作,以及下面卷积操作结果的直观感受:卷积操作确实能提取特征。例如下图就利用垂直卷积核和水平卷积核,将图像中的垂直边缘信息和水平边缘信息提取出来。

到这里我们知道两点

  • 卷积操作确实可以提取局部特征
  • 不同的特征需要设计不同的卷积核(而在神经网络中,卷积核中的参数无需手动设计,网络会自己学习
    在这里插入图片描述
    关于卷积操作为什么能提取特征背后的本质,和卷积核到底充当一个什么角色,深入理解的话,那就需要了解下面所讲的:傅里叶变换和加窗傅里叶变换

2.6.2:加窗傅里叶变换

卷积的本质是:二维的加窗傅里叶变换。学过信号与系统的话,大致对傅里叶变换有一个理解,我之前也专门写了一篇理解傅里叶变换的博客:傅里叶变换和其图像处理中的应用。这里的卷积核其实就是类比于傅里叶基,通过利用卷积核对二维图像数据进行卷积操作(加窗傅里叶变换),其实是将图像中和卷积核相似的特征信息提取出来(说白了,如果卷积核套在这块像素和卷积核想表达的特征相似,那么这次卷积得到的中心像素值就大,也就是这块存在这种卷积特征)。
在这里插入图片描述

这也是为什么上文讲卷积操作时,吴恩达老师会说,有几个卷积核,也就是有几个特征的含义。
在这里插入图片描述

不过需要注意的是,不像上图中那些规则的卷积核,神经网络中卷积核的样子(也就是卷积核的参数)是由反向传播学习得到的,具体卷积核的样子也是等到训练结束后才得知。
在这里插入图片描述

在这里插入图片描述

比如下面举例识别字母X的例子。我们假设一开始卷积核模板已经学习得到或者设计好,即以下三个特征(模式/卷积核/过滤器)。
在这里插入图片描述

当利用相应的模板(卷积核)对其进行卷积操作时,与模板特征匹配越高,在中心像素点位置的值也就越高(响应越高)——本质上就是,在这个位置捕捉到了这个卷积核对应的特征!

在这里插入图片描述
然后向之前一样,用过滤器将原图像分别卷积一遍,得到3个feature map

feature map 是特征图的意思,是指每个卷积核和输入卷积后形成的特征图,特征图的个数和卷积核的个数相同

在这里插入图片描述
思考:我们可以看到,这样得到的特征信息,包含两个方面:

  • 这个位置存在什么特征
  • 这个特征存在的位置

🪧结合位置+特征这两个信息,将其展平(并不会丢失信息),输入全连接神经网络,神经网络开始干活,对特征信息进行像传统神经网络该做的事情,进行预测。

当然,上面这个例子过于简单,只有一层,多层神经网络和池化我们也讲到,其实还是为了获得更大的感受野和减轻计算负担,本质上还是一样的!

所以为什么经常会看到说对比于传统的计算机视觉,卷积神经网络可以自己学习特征,说到底就是通过反向传播学习这些卷积核里的参数。

2.6.3:卷积神经网络特征图可视化

接下来我们对特征图feature map进行可视化,来深入了解:

定义了一个4层的卷积,每个卷积层分别包含9个卷积、Relu激活函数和尺度不等的池化操作,系数全部是随机初始化

输入原图:
在这里插入图片描述
第一层卷积后可视化的特征图:
在这里插入图片描述
第二层卷积后可视化的特征图:
在这里插入图片描述
第三层卷积后可视化的特征图:

在这里插入图片描述

第四层卷积后可视化的特征图:
在这里插入图片描述
从不同层可视化出来的特征图大概可以总结出一点规律:

  1. 浅层网络提取的是纹理、细节特征
  2. 深层网络提取的是轮廓、形状、最强特征(如猫的眼睛区域)——或者说是前面特征(卷积核)叠加效果的通用、最强特征(个人直觉上),但看一层的特征当然看起来似乎不可解释,但是实际上最后得到的特征图是建立在前面那么多卷积核作用之后的。
  3. 浅层网络包含更多的特征,也具备提取关键特征(如第一组特征图里的第4张特征图,提取出的是猫眼睛特征)的能力
  4. 相对而言,层数越深,提取的特征越具有代表性
  5. 图像的分辨率是越来越小的

以上是个人结合一些视频和文章资料学习、整合和加入自己理解所写,能力有限,若有欠妥地方,欢迎评论区讨论和指正!💐

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/361836.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

(已解决)spingboot 后端发送QQ邮箱验证码

打开QQ邮箱pop3请求服务&#xff1a;&#xff08;按照QQ邮箱引导操作&#xff09; 导入依赖&#xff08;不是maven项目就自己添加jar包&#xff09;&#xff1a; <!-- 邮件发送--><dependency><groupId>org.springframework.boot</groupId><…

关于source批量处理sql命令建立数据库后发现中文乱码问题解决方案(Mysql)

今天在使用souce建表的时候发现自己表结构中的中文出现了乱码问题&#xff0c;那么具体的解决方案如下&#xff1a; 首先我们先使用命令行连接自己的数据库 mysql -u root -p 12345 然后使用show variables like "char%"; 如果说你的这个里面不是utf-8那么就是出现了…

vulnhub靶场之Matrix-Breakout 2 Morpheus

一.环境搭建 1.靶场描述 This is the second in the Matrix-Breakout series, subtitled Morpheus:1. It’s themed as a throwback to the first Matrix movie. You play Trinity, trying to investigate a computer on the Nebuchadnezzar that Cypher has locked everyone…

王道_数据结构 1.2_2_算法的时间复杂度

1.2_2_算法的时间复杂度 一、为什么要事先预估算法时间开销二、时间复杂度的计算与技巧1、化简“算法时间开销”的计算方式的依据2、常用技巧&#xff08;1&#xff09;加法、乘法规则&#xff08;2&#xff09;时间复杂度的数量级阶数排行 3、计算时间复杂度的结论与步骤&…

能耗在线监测系统在节能管理中的应用

上海安科瑞电气股份有限公司 胡冠楠 咨询家&#xff1a;“Acrelhgn”&#xff0c;了解更多产品资讯 摘要&#xff1a;开展能耗在线监测系统建设&#xff0c;对加强政府部门和企业节能管理中的应用前景&#xff0c;分析系统在能源消费预测分析、能效对标、节能监察、能源精细化…

使用“快速开始”将数据传输到新的 iPhone 或 iPad

使用“快速开始”将数据传输到新的 iPhone 或 iPad 使用 iPhone 或 iPad 自动设置你的新 iOS 设备。 使用“快速开始”的过程会同时占用两台设备&#xff0c;因此请务必选择在几分钟内都不需要使用当前设备的时候进行设置。 确保你当前的设备已连接到无线局域网&#xff0c;并…

十分钟学会用springboot制作微信小程序富文本编辑器

1.1 富文本模型设计 在构建富文本编辑器系统时&#xff0c;首先需要设计一个合适的富文本模型。 CREATE TABLE IF NOT EXISTS rich_texts (id INT PRIMARY KEY AUTO_INCREMENT,title VARCHAR(255),content TEXT,created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP );这个表包括…

Arcgis10.3安装

所需软件地址 链接&#xff1a;https://pan.baidu.com/s/1aAykUDjkaXjdwFjDvAR83Q?pwdbs2i 提取码&#xff1a;bs2i 1、安装License Manager 点击License Manager.exe&#xff0c;默认下一步。 安装完&#xff0c;点击License Server Administrator&#xff0c;停止服务。…

RK3588平台开发系列讲解(视频篇)RKMedia的VDEC模块

文章目录 一、 VDEC模块支持的编码标准介绍二、VDEC API的调用三、VDEC解码流程沉淀、分享、成长,让自己和他人都能有所收获!😄 📢RKMedia是RK提供的一种多媒体处理方案,可实现音视频捕获、音视频输出、音视频编解码等功能。 一、 VDEC模块支持的编码标准介绍 RK3688 V…

推荐系统|召回_Swing召回通道

召回_Swing 模型 swing模型是ItemCF的一种改造 ItemCF的原理 举个例子。 ItemCF的存在的问题 有可能两篇不同类型的物品/笔记被分享到同一个微信群&#xff0c;从而提高了两个不同类型的视频被同一组人打开的概率。 而这只能说明这两个物品/笔记具有相同的受众&#xff0c;…

Oracle 面试题 | 03.精选Oracle高频面试题

&#x1f90d; 前端开发工程师、技术日更博主、已过CET6 &#x1f368; 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 &#x1f560; 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 &#x1f35a; 蓝桥云课签约作者、上架课程《Vue.js 和 E…

STM32G4 系列命名规则

STM32G4产品线 基础型系列STM32G4x1 具有入门级模拟外设配置&#xff0c;单存储区Flash&#xff0c;支持的Flash存储器容量范围从32到512KB。 增强型系列STM32G4x3 与基本型器件相比具有更多数量的模拟外设&#xff0c;以及双存储区Flash&#xff0c;Flash存储器容量也提高…

asdf安装不同版本的nodejs和yarn和pnpm

安装asdf 安装nodejs nodejs版本 目前项目中常用的是14、16和18 安装插件 asdf plugin add nodejs https://github.com/asdf-vm/asdf-nodejs.git asdf plugin-add yarn https://github.com/twuni/asdf-yarn.git可以查看获取所有的nodejs版本 asdf list all nodejs有很多找…

红队打靶练习:INFOSEC PREP: OSCP

目录 信息收集 1、arp 2、nmap WEB 信息收集 wpscan dirsearch ssh登录 提权 信息收集 1、arp ┌──(root㉿ru)-[~/kali] └─# arp-scan -l Interface: eth0, type: EN10MB, MAC: 00:0c:29:69:c7:bf, IPv4: 192.168.110.128 Starting arp-scan 1.10.0 with 256 ho…

如何将Mac连接到以太网?这里有详细步骤

在Wi-Fi成为最流行、最简单的互联网连接方式之前&#xff0c;每台Mac和电脑都使用以太网电缆连接。这是Mac可用端口的标准功能。 如何将Mac连接到以太网 如果你的Mac有以太网端口&#xff0c;则需要以太网电缆&#xff1a; 1、将电缆一端接入互联网端口&#xff08;可以在墙…

【ARM Trace32(劳特巴赫) 使用介绍 3.1 -- 不 attach core 直接访问 memory】

文章目录 背景介绍背景介绍 在使用 trace32 时在有些场景需要不 attach core 然后去读写 memory,比如在某些情况下 core 已经挂死连接不上了,这个时候需要dump内存,这个时候需要怎做呢? print "test for memory access directly";SYStem.OPTION WAITRESET OF…

《区块链简易速速上手小册》第7章:区块链在其他行业的应用(2024 最新版)

文章目录 7.1 供应链管理7.1.1 供应链管理中区块链的基础7.1.2 主要案例&#xff1a;食品安全追踪7.1.3 拓展案例 1&#xff1a;制药供应链7.1.4 拓展案例 2&#xff1a;汽车行业的零部件追踪 7.2 区块链在医疗保健中的应用7.2.1 医疗保健中区块链的基础7.2.2 主要案例&#xf…

React中封装大屏自适应(拉伸)仿照 vue2-scale-box

0、前言 仿照 vue2-scale-box 1、调用示例 <ScreenAutoBox width{1920} height{1080} flat{true}>{/* xxx代码 */}</ScreenAutoBox> 2、组件代码 import { CSSProperties, ReactNode, RefObject, useEffect, useRef, useState } from react//数据大屏自适应函数…

IDEA2023打开新项目默认SDK变成了17

问题描述 项目安装了2个sdk版本&#xff0c;jdk8和jdk17 自从升级IDEA版本到2023以后&#xff0c;每次打开新项目&#xff0c;sdk都被默认选择成了jdk17, 每次都得手动修改 &#xff08;File--Project Structure&#xff09;&#xff0c;超级麻烦。 没有用的解决方法 以下这…

大规模灯控技术方案

需求&#xff1a;需要控制240个灯的亮和灭。 设备清单&#xff1a; 设备数量规格灯光控制板1rs485&#xff0c;12v48路灯光驱动版512v网关1数据转发&#xff0c;采集modbus&#xff0c;mqtt指令下发电源1ac转dc&#xff0c; 12v 方案流程图 mqtt broker 信息 地址 1.2.3.4:…