【深度学习】吴恩达课程笔记(五)——超参数调试、batch norm、Softmax 回归

笔记为自我总结整理的学习笔记,若有错误欢迎指出哟~

【吴恩达课程笔记专栏】
【深度学习】吴恩达课程笔记(一)——深度学习概论、神经网络基础
【深度学习】吴恩达课程笔记(二)——浅层神经网络、深层神经网络
【深度学习】吴恩达课程笔记(三)——参数VS超参数、深度学习的实践层面
【深度学习】吴恩达课程笔记(四)——优化算法

吴恩达课程笔记——超参数调试、batch norm、Softmax 回归

  • 九、超参数调试
    • 1.调试处理
      • 超参数优先级
    • 2.超参数数值搭配选择方法
    • 3.为超参数选择合适的范围(标尺)
    • 4.超参数调整实践(Pandas VS Caviar)
      • 熊猫法
      • 鱼子酱法
  • 十、batch norm
    • 1.归一化网络的激活函数
    • 2.把batch norm拟合进神经网络
      • 使用的位置
      • batch norm拟合进神经网络
      • batch norm与minibatch一起使用
      • 𝑏[l]参数没有意义
    • 3.batch norm为什么好用?
      • 问题的提出
      • 总结
    • 4.测试时的batch norm
  • 十一、Softmax 回归
    • 1.Softmax 回归简介
      • 简介
      • 计算方法
      • softmax回归举例
    • 2.训练一个 Softmax 分类器
      • Softmax 名称来源
      • 怎样训练带有 Softmax 输出层的神经网络
      • 反向传播步骤或者梯度下降法

九、超参数调试

1.调试处理

超参数优先级

在这里插入图片描述
红色第一,黄色第二,紫色第三,没框的基本不调

2.超参数数值搭配选择方法

在这里插入图片描述
超参数少的时候可以像左面一样均匀取点研究效果。

超参数多的时候可以选择随机取点研究效果。如果此时发现某点及其附近的效果比其它部分好,那么就在这附近的区域较为密集地再多取一些点。如此研究直到得出足够满意的超参数搭配。如下图:
在这里插入图片描述

3.为超参数选择合适的范围(标尺)

举例说明:

  • 神经网络某层的神经元个数:可以取50-100间均匀随机值

  • 神经网络层数:可以取2-4间均匀随机值

  • 学习率:可以取0.0001-1间不均匀随机值

α = 1 0 − 4 ∗ n p . r a n d o n . r a n d ( ) 例子中的范围为 [ − 4 , 0 ] \alpha=10^{-4*np.randon.rand()}\\ 例子中的范围为[-4,0] α=104np.randon.rand()例子中的范围为[4,0]

在这里插入图片描述
标尺长上面这样。这样可以给不同的数量级分配相同的搜索资源。

  • 指数平均的 𝛽 :可以取0.9-0.999间不均匀随机值。

因为指数平均计算的是1/(1- 𝛽 )个数的平均值,这个式子在beta接近1的时候对beta更加敏感,因此应该令beta越接近1时,给相应的beta范围分配更多的搜索权重。
在这里插入图片描述
如图所示,对1- 𝛽 施以类似上面的学习率的计算,即可达到效果。

实际上,即使不使用这类换标尺的方法,只要有足够数据,或者能恰当的使用逐渐缩小超参数组合范围的方法,也可以较快的算出超参数的恰当值。

4.超参数调整实践(Pandas VS Caviar)

熊猫法

同时运行一个模型,观察其性能随时间变化,手动调整超参数
在这里插入图片描述

鱼子酱法

同时运行多个模型,不进行人工干预。全部训练完毕后选出训练结果较好的模型。
在这里插入图片描述

十、batch norm

1.归一化网络的激活函数

在这里插入图片描述

含义:将z进行归一化。即将z的分布调整到平均值为0,值分布调整到0-1之间(方差为1)。

目的:使得神经网络的参数计算更有效率

注意:在训练隐藏层的时候,有时候为了发挥sigmoid、tanh等的效果,你不希望数据的方差变为1,那么你就没必要对z归一化
z ( 1 ) , . . . , z ( m ) —— > z [ l ] ( i ) , i 为 1 到 m 的某个隐藏层 i μ = 1 m ∑ i m z ( i ) σ n o r m 2 = 1 m ∑ i m ( z i − μ ) 2 z n o r m ( i ) = z ( i ) − μ σ 2 + ϵ z^{(1)},...,z^{(m)} ——>z^{[l](i)},i为1到m的某个隐藏层i\\ \mu=\frac{1}{m}\sum_{i}^{m}z^{(i)} \\ \sigma_{norm}^{2}=\frac{1}{m}\sum_{i}^{m}(z_i-\mu)^{2} \\ z_{norm}^{(i)}=\frac{z^{(i)}-\mu}{\sqrt{\sigma^{2}+\epsilon}}\\ z(1),...,z(m)——>z[l](i),i1m的某个隐藏层iμ=m1imz(i)σnorm2=m1im(ziμ)2znorm(i)=σ2+ϵ z(i)μ
但是有时候我们不希望z分布在0-1、平均值为0,也许分布在别的地方会更有意义。
z ˜ ( i ) = γ z n o r m ( i ) + β 如果 γ , β 如下 : γ = σ 2 + ϵ β = μ 那么: z ˜ ( i ) = z ( i ) \~z^{(i)}=\gamma z_{norm}^{(i)}+\beta\\ 如果\gamma ,\beta如下: \\ \gamma=\sqrt{\sigma^{2}+\epsilon} \\ \beta=\mu \\ 那么:\~z^{(i)}=z^{(i)} z˜(i)=γznorm(i)+β如果γβ如下:γ=σ2+ϵ β=μ那么:z˜(i)=z(i)

2.把batch norm拟合进神经网络

使用的位置

前向传播中:在计算出z后,使用激活函数前
在这里插入图片描述
每个单元负责计算两件事。第一,它先计算 𝑧,然后应用其到激活函数中再计算 𝑎 。每个圆圈代表着两步的计算过程。
在这里插入图片描述

batch norm拟合进神经网络

  1. 没有应用 Batch 归一化:

    把输入𝑋拟合到第一隐藏层,然后首先应用 𝑤[1] 和 𝑏[1] 计算 𝑧[1]

    接着,把 𝑧[1] 拟合到激活函数以计算 𝑎[1]

  2. 应用 Batch 归一化:Batch 归一化是发生在计算𝑧和𝑎之间的。

    • 把输入𝑋拟合到第一隐藏层,然后首先应用 𝑤[1] 和 𝑏[1] 计算 𝑧[1]

    • (第一层)将 𝑧[1] 值进行 Batch 归一化,简称 BN,此过程将由 𝛽[1] 和 𝛾[1] 两参数控制,这一操作会给你一个新的规范化的 𝑧[1] 值(𝑧̃[1] ),然后将其输入激活函数中得到 𝑎[1],即 𝑎[1] = 𝑔[1] (𝑧̃[l])。

    • (第二层)应用 𝑎[1] 值来计算 𝑧[2],此过程是由 𝑤[2] 和 𝑏[2] 控制的。与你在第一层所做的类似,通过 𝛽[2] 和 𝛾[2] 将 𝑧[2] 进行 Batch 归一化,得到 𝑧̃[2],再通过激活函数计算出 𝑎[2]

    注意:这里的这些( 𝛽[1], 𝛽[2]等等)和超参数𝛽没有任何关系。

    ( 𝛽[1], 𝛽[2]等等)是算法的新参数 ,接下来你可以使用想用的任何一种优化算法,比如使用梯度下降法来执行它。更新参数 𝛽为 𝛽[l] = 𝛽[l] - 𝛼 𝑑𝛽[l]。你也可以使用 Adam 或 RMSprop 或 Momentum,以更新参数 𝛽 和 𝛾,并不是只应用梯度下降法。

    后者是用于 Momentum、 Adam、 RMSprop 或计算各个指数的加权平均值。

batch norm与minibatch一起使用

在这里插入图片描述
第一个 mini-batch:𝑋{1}

  • 应用参数𝑤[1]和𝑏[1] ,计算𝑧[1]
  • Batch 归一化减去均值,除以标准差,由𝛽[1]和𝛾[1]得到𝑧̃[1]
  • 再应用激活函数得到𝑎[1]
  • 应用参数𝑤[2]和𝑏[2],计算𝑧[2]
  • 然后继续下去

继续第二个 mini-batch:𝑋{2}

继续第三个 mini-batch:𝑋{3}

𝑏[l]参数没有意义

在这里插入图片描述
在使用 Batch 归一化,其实你可以消除参数 𝑏[l],或者设置为 0,参数变成𝑧[l] = 𝑤[l]𝑎[[l-1]

然后对𝑧[l]进行归一化,𝑧̃[l] = 𝛾[l]z[l] +𝛽[l],最后会用参数𝛽[l],以便决定𝑧̃[l]的取值。

**总结:**Batch 归一化,z[l]所有的偏移最终都由归一化确定了, 𝑏[l]参数没有意义,所以由控制参数𝛽[l]代替来影响转移或偏置条件。

3.batch norm为什么好用?

问题的提出

在这里插入图片描述
如上图,如果你的训练集是左边的那些黑猫,那么你的训练样本分布可以由左侧坐标系图代替。如果你的训练集是右边那些花猫,那么你的样本分布可由右侧坐标图代替。

假设你分别用两组训练集训练两个模型,那么由于样本分布不同,最后得到的“找猫函数”也会不同。

现在你希望有一个模型,能同时识别黑猫和不同颜色的猫,但是由上可知,如果你同时用黑猫和花猫的训练集进行训练,就容易让神经元感到“迷惑”

总结

在这里插入图片描述

  1. Batch 归一化,从神经网络后层角度而言,前层不会左右移动的那么多,因为被均值和方差所限制,使后层的学习工作变得更容易些。
  2. Batch 归一化有轻微正则化效果

4.测试时的batch norm

μ = 1 m ∑ i m z ( i ) σ n o r m 2 = 1 m ∑ i m ( z i − μ ) 2 z n o r m ( i ) = z ( i ) − μ σ 2 + ϵ z ˜ ( i ) = γ z n o r m ( i ) + β \mu=\frac{1}{m}\sum_{i}^{m}z^{(i)} \\ \sigma_{norm}^{2}=\frac{1}{m}\sum_{i}^{m}(z_i-\mu)^{2} \\ z_{norm}^{(i)}=\frac{z^{(i)}-\mu}{\sqrt{\sigma^{2}+\epsilon}}\\ \~z^{(i)}=\gamma z_{norm}^{(i)}+\beta\\ μ=m1imz(i)σnorm2=m1im(ziμ)2znorm(i)=σ2+ϵ z(i)μz˜(i)=γznorm(i)+β

测试时,我们可能不使用minibatch,而是一个一个的过训练样本。这个时候训练集的平均数 𝜇 和方差 𝜎2 怎么获得呢?

  1. 使用指数加权平均计算

  2. 使用流动平均来粗略估算

  3. 使用深度学习框架自默认的方式估算

十一、Softmax 回归

1.Softmax 回归简介

简介

softmax回归是logistic回归的一般形式,它做的不只是二分分类,也可以做多分分类
在这里插入图片描述
区分四个种类(class),0-其他、1-猫、2-狗、3-鸡

定义C为种类数,这里C=4,可以看到输出层有四个神经元,他们分别输出结果是0、1、2、3的概率,且总和为1 ,输出结果是一个4*1的向量。

计算方法

在这里插入图片描述
左侧是softmax输出层激活函数计算方法:
z [ l ] = W [ l ] a [ l − 1 ] + b [ l ] S o f t m a x 激活函数 : a [ l ] = g [ l ] ( z [ l ] ) t = e z [ l ] a [ l ] = e z [ l ] ∑ j = 1 4 t i a i [ l ] = t i ∑ j = 1 4 t i z^{[l]} = W^{[l]}a^{[l-1]} + b^{[l]} \\ Softmax 激活函数: a^{[l]}=g^{[l]}(z^{[l]})\\ t=e^{z^{[l]}} \\ a^{[l]}=\frac{e^{z^{[l]}}}{\sum_{j=1}^{4}t_i} \\ a_i^{[l]}=\frac{t_i}{\sum_{j=1}^{4}t_i} \\ z[l]=W[l]a[l1]+b[l]Softmax激活函数:a[l]=g[l](z[l])t=ez[l]a[l]=j=14tiez[l]ai[l]=j=14titi
右侧是一个例子:
在这里插入图片描述

softmax回归举例

在这里插入图片描述

2.训练一个 Softmax 分类器

Softmax 名称来源

hardmax 会把向量𝑧变成这个向量[1 0 0 0], 与hardmax 对比,Softmax所做的从𝑧到概率的映射更为温和
在这里插入图片描述

怎样训练带有 Softmax 输出层的神经网络

在这里插入图片描述

举例:单个样本为猫,这个样本中神经网络的表现不佳,这实际上是一只猫,但却只分配到 20%是猫的概率,所以在本例中表现不佳。

用什么损失函数来训练这个神经网络?

损失函数:
L ( y ^ , y ) = − ∑ j = 1 C y j l o g y ^ j y 1 = y 3 = y 4 = 0 , y 2 = 1 ,则 L ( y ^ , y ) = − l o g y ^ 2 L ( y ^ , y ) 越小越好,则 y ^ 2 需要尽量大 L(ŷ,y)=-\sum_{j=1}^{C}y_jlogŷ_j \\ y_1 = y_3 = y_4 = 0,y_2= 1,则L(ŷ,y)=-logŷ_2 \\ L(ŷ,y)越小越好,则ŷ_2需要尽量大 L(y^,y)=j=1Cyjlogy^jy1=y3=y4=0y2=1,则L(y^,y)=logy^2L(y^,y)越小越好,则y^2需要尽量大

反向传播步骤或者梯度下降法

公式:
d z [ l ] = y ^ − y dz^{[l]}=ŷ-y dz[l]=y^y

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/154025.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

开源短剧付费变现小程序源码系统+在线开通会员+在线充值 带完整的搭建教程

说起微短剧,相信大家都不会陌生。相比传统网剧冗长的剧情,微短剧最大的看点,是时长短、高浓缩,顺应了当下用户娱乐时间碎片化趋势。其故事题材多为赘婿、霸道总裁、穿越、重生等看似夸张、无厘头,但却非常“上头”的虚…

PyTorch:GPU的使用

在深度学习领域,神经网络模型训练所需的计算量巨大,这就对计算资源提出了高要求。为了处理这一问题,图形处理器(GPU)被引入到深度学习中,其并行计算能力可以极大加速神经网络的训练过程。PyTorch作为一款出…

什么是脏读、不可重复读、幻读讲解

数据库隔离级别是数据库管理系统中一个重要的概念,它定义了事务之间的可见性和影响。在多用户并发访问数据库时,隔离级别能够确保事务之间的相互独立性,避免数据不一致的问题。本文将深入探讨三种常见的并发问题:脏读、不可重复读…

Java8Stream快速使用

将List集合存入流中 List<String> list new ArrayList<>();list.add("张一");list.add("张二");list.add("张三");list.add("李四");list.add("赵五");list.add("张六");list.add("王八"…

Android---Gradle 构建问题解析

想必做 Android App 开发的对 Gradle 都不太陌生。因为有 Android Studio 的帮助&#xff0c;Android 工程师使用 Gradle 的门槛不算太高&#xff0c;基本的配置都大同小异。只要在 Android Studio 默认生成的 build.gradle 中稍加修改&#xff0c;就都能满足项目要求。但是&am…

为什么红帽Linux值得学习?红帽Linux是什么

为什么红帽Linux值得学习 物联网、云计算、大数据&#xff0c;或许你都耳熟能详&#xff0c;但是Linux可能你却感觉到有点陌生。这些未来趋势的行业使用的嵌入式、c、JAVA、PHP等底层应用软件都是在Linux操作系统上Linux运维工程师作为移动互联网的关键支撑岗位&#xff0c;缺口…

朝夕光年「红砖」搭建平台架构设计和应用落地

在游戏产品的生命周期中&#xff0c;游戏运营需要实现各类营销活动&#xff0c;通过 Native 和 H5 页面&#xff0c;投放到游戏端内和各种社交媒体&#xff0c;实现“拉新&#xff0c;促活&#xff0c;回流&#xff0c;付费”等核心目标。然而&#xff0c;一个游戏一生可能需要…

企业工商四要素核验API的实现原理和功能介绍

引言 随着社会经济的不断发展&#xff0c;对企业信息的准确性和可信度要求也越来越高。为了有效防范企业信息不实和欺诈行为&#xff0c;企业工商四要素核验API应运而生。该API可以通过传入企业名称、社会统一信用代码、法人名称、法人身份证等信息&#xff0c;快速进行核验&a…

JVM虚拟机-虚拟机执行子系统-第6章 字节码指令

字节码指令 Java虚拟机的指令由一个字节长度的、代表着某种特定操作含义的数字&#xff08;称为操作码&#xff0c;Opcode&#xff09;以及跟随其后的零至多个代表此操作所需的参数&#xff08;称为操作数&#xff0c;Operand&#xff09;构成。 字节码与数据类型 在Java虚拟…

小程序action-sheet结合自定义tabbar显示

要实现此效果&#xff0c;遇到的问题&#xff1a;背景在电脑端调试的情况正常的情况下&#xff0c;手机端点击事件工单&#xff0c;返回回来的时候action-sheet卡住在屏幕上&#xff0c;点击遮罩层都不消失。更奇怪的是 这种情况并不是每次发生&#xff0c;而是有时候发生&…

SQLSERVER 遍历循环的两种方式很详细有源码(2)

2.游标循环 Create table WS_Student ( [Id] int primary key not null, [My_Cocode] [int], [My_SCocode] [int], [userId] [bigint], [SetCName] [varchar](50) NULL, [SetEName] [varchar](50) NULL, [SetPcode] [varchar](50) NULL, [Se…

经典/启发式/改进启发式算法应用于机器人路径规划

路径规划是移动机器人导航规划中的一个十分重要且关键的研究课题。 移动的机器人总是在动态、复杂和不可控的环境中工作&#xff0c;比如对核电站的检查和变电站的检查。然而&#xff0c;复杂的动态工作环境要求移动的机器人能够调整其运动路线&#xff0c;以自主完成任务。使…

流媒体协议

◆ RTP(Real-time Transport Protocol)&#xff0c;实时传输协议。 ◆ RTCP(Real-time Transport Control Protocol)&#xff0c;实时传输控制协议。 ◆ RTSP(Real Time Streaming Protocol)&#xff0c;实时流协议。 ◆ RTMP(Real Time Messaging Protocol)&#xff0c;实时…

【论文解读】GPT Understands, Too

一.论文 1.1 P-tuning 区别于之前的工作&#xff0c;这篇工作认为promote可以在句子中的任意位置起到作用&#xff0c;可以将它们插入上下文或目标中 上图中&#xff0c;左图是不使用任何操作&#xff0c;右图是选择在居首和目标前插入promote的embedding&#xff0c;插入pro…

2023最新软件测试20个基础面试题及答案

什么是软件测试&#xff1f; 答案&#xff1a;软件测试是指在预定的环境中运行程序&#xff0c;为了发现软件存在的错误、缺陷以及其他不符合要求的行为的过程。 软件测试的目的是什么&#xff1f; 答案&#xff1a;软件测试的主要目的是保证软件的质量&#xff0c;并尽可能大…

打破内卷宿命,电商只能出海,必须出海!

历史社会学家黄宗智把中国华北小农经济中的“过密化增长”、边际收益递减等现象称之为“内卷”&#xff1a;即在有限空间内的激烈零和式竞争现象&#xff1b;内卷产生的根源是有限且封闭的空间&#xff0c;竞争规则是“排他性”的零和博弈。 空间有限下的零和博弈&#xff0c;正…

强引用、软引用、弱引用、虚引用的区别

Java中的引用有四种&#xff0c;分为强引用&#xff08;Strongly Reference&#xff09;、软引用&#xff08;Soft Reference&#xff09;、弱引用&#xff08;Weak Reference&#xff09;和虚引用&#xff08;Phantom Reference&#xff09;4种&#xff0c;这4种引用强度依次逐…

【C++11】lambda表达式 | 包装器

文章目录 一、 lambda表达式lambda表达式的引入lambda表达式的语法lambda表达式与函数对象lambda表达式的捕捉列表 二、包装器function包装器bind包装器 一、 lambda表达式 lambda表达式的引入 在C98中&#xff0c;为了替代函数指针&#xff0c;C设计出了仿函数&#xff0c;也…

zookeeper学习记录

本文Java代码地址&#xff1a; https://gitee.com/blackjie_1/ljUp/tree/master/zookeeperDemo 个人博客网站&#xff1a;什么是快乐 基于docker 安装 拉取zookeeper 3.4.10 docker pull zookeeper:3.4.10启动服务端 docker run -d -p 2181:2181 -v /root/docker/zookeepe…

现在做跨境电商还需要全球代理IP吗?全球代理IP哪家靠谱?

随着全球互联网的发展&#xff0c;电商平台的发展和跨境贸易的便利化&#xff0c;跨境电商在过去几年中也一直呈现增长趋势&#xff0c;吸引了越来越多的企业和个体创业者入行。 然而&#xff0c;行业竞争也在不断加剧&#xff0c;跨境电商面临更多的越来越多的挑战&#xff0…
最新文章