《深度学习与图像分析——基础与应用》书籍阅读

李松斌,刘鹏著,科学出版社
2023年5月20日16:32:38开始阅读,2023年7月12日读完。

1.基础知识

获得泛化能力是深度学习的最终目标。泛化能力是指处理未被观察个的数据的能力(即不包含在训练数据中的数据)。
训练集:训练模型
测试集:测试模型的泛化能力
验证集:验证模型是否过拟合

数据增强的常用方法:
● 翻折(类似于镜面的翻折);
● 旋转
● 缩放
● 裁剪
● 平移
● 添加噪声

神经网络学习的目的就是为了找出能使得损失函数的值达到最小的权重参数。
深度学习中常见的两大类问题:分类和回归。分类问题是依据已有的信息进行整合,最后输出离散的类别值;回归是指通过已知去预测未知,输出是连续的。

最优化的方法:
● 梯度下降法(寻找最小值)
● 梯度上升法 (寻找最大值)
● 随机梯度下降法 SGD
● 自适应梯度法(AdaGrad):对每个参数乘以不同的系数,每个参数所乘的系数通过之前积累的梯度大小的平方和来决定,对于更新频率高的参数,可以设置较小的学习率,更新慢一点;对于更新频率低的参数可以设置较大一点的学习率,更新快一点。【具体做法】将每一维参数各自的历史梯度的平方叠加起来,然后在更新的时候除以该历史梯度值。
● 自适应矩估计(Adam)

2.深度学习图像分类算法核心

图像分类要解决的“是什么”的问题,也就是输入一张图像,输出该图像所属的类别。
基于深度学习的图像分类属于一种端到端的模型。
图像分类的难点可以分为:实例层次、类别层次、语义层次。
● 实例层次:尺度、光照、视角、变形、遮挡
● 类别层次:类内差别、类间模糊、背景干扰
● 语义层次:多重稳定。

  1. 基于深度学习图像分类算法的诞生——LeNet5,1998年
  2. 开创基于深度学习图像分类算法的新局面——AlexNet,2012年
  3. 基于小卷积核的图像分类算法——VGGNet,2014年
  4. 基于最优局部稀疏结构的图像分类算法——Inception系列
    ● Inception-v1,2014年
    ● Inception-v2、v3,2016年
  5. 基于恒等映射残差单元的图像分类算法——ResNet,2015年
  6. 基于聚合转换残差单元的图像分类算法——ResNeXt,2016年,在ResNet的基础上同时采用VGGNet和Inception的思想,提出一种可扩展性更强的“聚合转换残差单元”,可以在增加准确率的同时降低或者不改变模型的复杂度。
  7. 基于多层密集连接的图像分类算法——DenseNet,2017年,受ResNet的启发,提出一种更加密集的前馈式跳跃连接。从特征的角度出发,通过增加网络信息流的隐性深层监督和特征复用极大程度上缓解了梯度消失的问题,也使得模型的性能得到大幅度的提升。
  8. 基于特征通道重标定的图像分类算法——SENet,2018年。并非是一个完整的网络,可以嵌入到任何主干网络中的子模块。
  9. 基于通道压缩与扩展的图像分类算法——SqueezeNet,2016年。开启了模型轻量化的开端,对神经网络走向实际化具有重要的意义。
  10. 基于深度可分离卷积的图像分类算法——MobileNet,2017年。一种专注于资源受限的移动设备或嵌入式设备的轻量级卷积神经网络。基于逐点群卷积与通道混洗的图像分类算法——ShuffleNet,2017年。基于神经架构自动搜索的图像分类算法——NASNet,2018年。

从图像中提取关键信息并转化为能够进行分类的特征是图像分类算法的最基本的要求,关键信息提取是完成图像分类最基本的先决条件。图像分类的本质实际上就是滤除非关键信息,保留关键信息的过程。

3.深度学习目标检测算法核心

目标检测是计算机视觉领域一个基础但十分重要的研究方向。
如何充分利用深度卷积神经网络产生的浅层和深层特征来增强网络对多尺度目标的检测性能,并在一定检测精度的前提下降低网络的时间复杂度,是当前基于深度学习的目标检测算法的主要研究目标。
目标检测要解决目标定位的回归问题,又要解决目标分类的问题。
为评估定位精度,需要计算交并比IoU(预测框与真实框之间的重叠程度)。

  1. R-CNN,2014年(候选区域推荐 -> 候选区域特征提取 -> 候选区域分类 -> 候选区域边界框回归)
  2. 基于空间金字塔池化的目标检测算法——SPPNet, 2015年。
  3. 基于R-CNN和SPPNet改进的目标检测算法—— Fast R-CNN,2015年。
  4. 基于语义分割和Faster R-CNN的目标检测网络——Mask R-CNN,2017年。解决图像实例分割问题。
  5. 一步式目标检测算法的提出——YOLO系列,2015年。
  6. 基于特征金字塔的目标检测算法——FPN,2017年。利用特征图间不同的表达特性,提出对输入图像生成多维度特征表达的方法,从而生成更具有代表性、表达能力更强的特征图以供后续使用。本质上说,FPN是一种加强骨干网络特征表达的方法。
  7. 基于单发细化目标的检测算法——RefineDet,基于SSD,融合了一步式和两步式的思想,在保持一步式方法速度的前提下,获得了二步式的精度。(Faster R-CNN两步式,YOLO一步式)。该算法由锚框优化模块ARM和目标检测模块ODM两个模块,由转换连接模块TCB连接。
  8. 基于主干架构搜索的目标检测算法——DetNAS,基于单步检测网络空间提出搜索目标检测骨干网络框架。
  9. 基于神经架构搜索的目标检测算法——NAS-FPN,FPN是一种有效表达深度卷积网络特征的方法,通过提取多维度特征形成强表达特征,可缓解不同尺度检测的难题,能极大提升小物体的检测效果。NAS-FPN基于RetinaNet一步式网络(两个主要模块:骨干网络模块和FPN网络模块)。

4.深度学习语义分割算法本质与革新

语义分割是计算机视觉领域捏较为典型的像素点标注问题,不仅解决是什么的问题,还需对该物体所在的图像区域
进行精确的定位。

  1. 基于深度学习的语义分割算法——FCN,首个。2015年,Long等。全卷积神经网络FCN的提出,实现了基于深度学习的图像语义分割,使得语义分割模型也能够进行端到端的训练。
  2. 基于深度编解码结构的语义分割算法——SegNet。
  3. 基于空洞卷积的语义分割算法—— dilate convolution 。传统卷积方式,保留空间细节信息与获得全局上下文信息是相互矛盾的。Yu引入空洞卷积,通过在卷积核之间产生空洞,从而在不增加参数量的前提下扩大感受野。
  4. 基于金字塔池化句很多尺度信息的语义分割算法——PSPNet,2016年。通过全局先验表示能够有效生成高质量的场景解析结果,且PSPNet为像素级预测提供了一个优越的框架。
  5. 基于卷积神经网络与条件随机场的语义分割算法——DeepLab-v1,。
  6. 基于空洞空间金字塔池化与条件随机场的语义分割算法——DeepLab-v2,2017年。
  7. 基于级联空洞卷积与并行多空洞率金字塔池化的语义分割算法——DeepLab-v3
  8. 基于深度可分离卷积与并行多空洞率金字塔池化的语义分割算法——DeepLab-v3+,2018年。
  9. 基于多路径优化的语义分割算——RefineNet。通过远距离的残差连接有效利用不同分宾利的图像信息,可以直接使用来自早期卷积的细粒度特性对捕获高级语义特性的更深层进行细化。
  10. 基于注意力优化与特征融合的语义分割算法——BiSeNet(双通道语义分割网络),空间路径和上下文语义路径。
  11. 基于增强特征融合的语义分割算法——ExFuse
  12. 基于双路注意力机制的语义分割算法——DANet,通过自注意力机制捕获丰富的上下文依赖关系来解决场景分割任务。
    基于卷积神经网络的语义分割算法首先需要利用卷积神经网络提取特征,必然会面临多次下采样而导致细节信息丢失,过少的下采样又会导致无法捕获足够视野的上下文信息。编码结构能够融合不同尺度的高低层次特征,从而使得语义分割算法在回复分辨率的过程中有效利用了不同层次的特征;金字塔池化成功解决了高层特征无法捕获全局语义信息的问题;空洞卷积能够在有限下采样次数的情况下,扩大编码端的感受野,捕获足够尺度上的上下文信息;自注意力机制能够增强特征点之间的空间关联关系以及通道间的一致性,从而达到优化语义分割结果的目的。

5.深度学习的图像生成算法原理及发展

5章和剩下的应用部分在目前看来可能不是很好吸收,觉得最重要的是自己没有想过的项目经验,有必要抽出部分部件来做与代码相关的项目,目前吸收更多的是理论知识,而且理论知识也是那种广泛泛泛而谈的理论,实践的东西是越做越少了。

书评

是一本不错的深度学习与图像分析基础与应用的书籍,在梳理算法的时候,从应用(分割、分类、生成等几个部分)到时间上的细分,从基础到改进上的细分,相对来说,比较适合新手做系统的概念了解和老手做系统知识梳理与回顾。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/70191.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

RCNA——单臂路由

一,实验背景 之前的VLAN实现的很多都是相同部门互相访问,不同部门无法访问。不过这次整来了一个路由器,领导说大部分的部门虽说有保密信息需要互相隔离,但是这些部门和其它部门也应该互相连通以方便工作交流。因此要配置新的环境&…

【VBA入门】WorkBook 对象 Name操作 宏录制筛选删除代码

VBA 入门 问题记录1 了解Excel工作簿、表格关系1 默认新建WorkBook2 新建WorkBook并命名工作表添加数据3新建带有指定数量工作表的工作簿 ActiveWorkbook.Names用法(1) 创建名称 (全局名称和局部名称) 宏录制验证删除可行性大招!!&#xff01…

【数据结构】反转链表、链表的中间节点、链表的回文结构(单链表OJ题)

正如标题所说,本文会图文详细解析三道单链表OJ题,分别为: 反转链表 (简单) 链表的中间节点 (简单) 链表的回文结构 (较难) 把他们放在一起讲的原因是: 反转链…

Springboot3整合使用aj-captcha行为验证码解决方案

截止到目前(2023-04-20),Springboot最新稳定版本已经迭代到3.0.5,而我们项目中使用的行为验证码框架aj-captcha还没有适配Springboot3,码云上类似的请求也没有得到过回应,于是决定自己动手适配一下,研究下来发现适配3.…

加盐加密算法

MD5加密加盐加密项目密码升级 MD5加密 MD5一系列公式进行复杂数学运算;特点:(用途校验和、计算hash值方式、加密) 1:定长;无论原始数据多长;算出的结果都是4或者8字节的版本。 2:冲…

Nodejs+vue+elementui汽车租赁管理系统_1ma2x

语言 node.js 框架:Express 前端:Vue.js 数据库:mysql 数据库工具:Navicat 开发软件:VScode 前端nodejsvueelementui, 课题主要分为三大模块:即管理员模块、用户模块和普通管理员模块,主要功能包括&#…

【网络编程·网络层】IP协议

目录 一、IP协议的概念 二、IP协议的报头 1、四位首部长度 2、16位总长度(解包) 3、8位协议(分用) 4、16位首部校验和 5、8位生存时间 6、32位源IP和32位目的IP 7、4位版本/8位服务类型 8、16位标识 9、3位标志 10、1…

Element组件浅尝辄止2:Card卡片组件

根据官方说法: 将信息聚合在卡片容器中展示。 1.啥时候使用?When? 既然是信息聚合的容器,那场景就好说了 新建页面时可以用来当做页面容器页面的某一部分,可以用来当做子容器 2.怎样使用?How? //Card …

30.基于XML的声明式事务

基于XML的声明式事务 主要是使用XML去代替注解&#xff0c;来实现起到代替注解的作用&#xff0c;实际使用频率很低 将BookServiceImpl.java中的Transactional注解删除&#xff0c;确保用户余额充足 spring-tx-xml.xml <?xml version"1.0" encoding"UTF-8…

Linux:Shell编辑之文本处理器(sed)

目录 绪论 1、sed的原理&#xff1a;读取 执行 显示 三个过程 2、sed 文本内容处理工具&#xff0c;文件过大怎么办&#xff1f; 3、sed的操作选项 3.1 常用选项 3.2 操作符 3.3 行号的范围打印 3.4 对包含指定字符串的内容进行打印 3.5 删 3.5.1 正则表达式删除 3.6…

DNS:使用 bind9 配置主从权威DNS服务器

写在前面 分享一些 使用 bind9 配置主从权威名称服务器的笔记理解不足小伙伴帮忙指正 对每个人而言&#xff0c;真正的职责只有一个&#xff1a;找到自我。然后在心中坚守其一生&#xff0c;全心全意&#xff0c;永不停息。所有其它的路都是不完整的&#xff0c;是人的逃避方式…

Flink多流处理之Broadcast(广播变量)

写过Spark批处理的应该都知道,有一个广播变量broadcast这样的一个算子,可以优化我们计算的过程,有效的提高效率;同样在Flink中也有broadcast,简单来说和Spark中的类似,但是有所区别,首先Spark中的broadcast是静态的数据,而Flink中的broadcast是动态的,也就是源源不断的数据流.在…

笔记本电脑如何把sd卡数据恢复

在使用笔记本电脑过程中&#xff0c;如果不小心将SD卡里面的重要数据弄丢怎么办呢&#xff1f;别着急&#xff0c;本文将向您介绍SD卡数据丢失常见原因和恢复方法。 ▌一、SD卡数据丢失常见原因 - 意外删除&#xff1a;误操作或不小心将文件或文件夹删除。 - 误格式化&#…

【资讯速递】AI与人类思维的融合;OpenAI在中国申请注册“GPT-5”商标;移动大模型主要面向to B 智能算力是未来方向

2023年8月11日 星期五 癸卯年六月廿五 第000001号 欢迎来到爱书不爱输的程序猿的博客, 本博客致力于知识分享&#xff0c;与更多的人进行学习交流 本文收录于IT资讯速递专栏,本专栏主要用于发布各种IT资讯&#xff0c;为大家可以省时省力的就能阅读和了解到行业的一些新资讯 资…

C++初阶之一篇文章教会你list(理解和使用)

list&#xff08;理解和使用&#xff09; 什么是list特点和优势基本操作示例用法与其他序列式容器&#xff08;如 std::vector 和 std::deque&#xff09;相比&#xff0c;std::list 显著的区别和优势成员类型 list构造函数1. default (1)2. fill (2)3.range (3)4. copy (4) li…

ubuntu20.04磁盘满了 /dev/mapper/ubuntu--vg-ubuntu--lv 占用 100%

问题 执行 mysql 大文件导入任务&#xff0c;最后快完成了&#xff0c;查看结果发现错了&#xff01;悲催&#xff01;都执行了 两天了 The table ‘XXXXXX’ is full &#xff1f; 磁盘满了&#xff1f; 刚好之前另一个 centos 服务器上也出现过磁盘满了&#xff0c;因此&a…

什么是Selenium?使用Selenium进行自动化测试

什么是 Selenium&#xff1f;   Selenium 是一种开源工具&#xff0c;用于在 Web 浏览器上执行自动化测试&#xff08;使用任何 Web 浏览器进行 Web 应用程序测试&#xff09;。   等等&#xff0c;先别激动&#xff0c;让我再次重申一下&#xff0c;Selenium 仅可以测试We…

大连交通大学813软件工程考研习题

1.什么是软件生存周期模型?有哪些主要模型? 生存周期模型&#xff1a;描述软件开发过程中各种活动如何执行的模型。对软件开发提供强有力的支持&#xff0c;为开发过程中的活动提供统一的政策保证&#xff0c;为参与开发的人员提供帮助和指导&#xff0c;是软件生存周期模型…

云计算——常见存储类型

作者简介&#xff1a;一名云计算网络运维人员、每天分享网络与运维的技术与干货。 座右铭&#xff1a;低头赶路&#xff0c;敬事如仪 个人主页&#xff1a;网络豆的主页​​​​​ 目录 前言 一.存储类型 1.本地磁盘 2.DAS 3.NAS 4.SAN &#xff08;1&#xff09;FC SA…

锁定Mac的内置键盘,防止外接键盘时的误触

场景&#xff1a;把你的外接键盘放在mac上&#xff0c;然后打字时&#xff0c;发现外接键盘误触mac键盘&#xff0c;导致使用体验极差 解决方案&#xff1a;下载Karabiner-Elements这款软件&#xff0c;并给它开启相关权限。 地址&#xff1a;https://github.com/pqrs-org/Ka…
最新文章