【机器学习300问】74、如何理解深度学习中L2正则化技术?

        深度学习过程中,若模型出现了过拟合问题体现为高方差。有两种解决方法:

  1. 增加训练样本的数量
  2. 采用正则化技术

        增加训练样本的数量是一种非常可靠的方法,但有时候你没办法获得足够多的训练数据或者获取数据的成本很高,这时候正则化技术就可以有效的帮助你避免模型过拟合。接下来本文就来讲解一下深度学习中的正则化起作用的原理(文中以L2正则化为例)。

        有关正则化的基础知识,可以回看我之前的文章哦:

【机器学习300问】18、正则化是如何解决过拟合问题的?icon-default.png?t=N7T8http://t.csdnimg.cn/vX2mP

一、包括L2正则化项的损失函数长什么样

        在损失函数(如均方误差、交叉熵误差等)的基础上,L2正则化引入了一个与权重向量W相关的正则化项,通常表示为:

J(W, b; x, y) = L(W, b; x, y) + \frac{\lambda}{2m} \sum_{l=1}^{L} ||W^{[l]}||^2_F

符号解释
J(W, b; x, y)包含正则化项的总损失函数
L(W, b; x, y)代表未加正则化项的原始损失函数,这通常是对每个样本的损失的平均值,如交叉熵损失或均方误差损失
W,b分别表示网络中的权重和偏置参数
\lambda正则化项的系数,这是一个超参数,用于控制正则化的强度
m训练样本的数量
\sum_{l=1}^{L} ||W^{[l]}||^2_FL2正则化项,通常称为权重衰减项。是所有权重矩阵的Frobenius范数的平方的和。Frobenius范数是一个矩阵范数,等同于矩阵元素的平方和的平方根
||W^{[l]}||^2_F
表示第l层权重矩阵的Frobenius范数的平方,而L是网络层的总数

二、L2正则化的作用机制

(1)权重缩小

        在优化过程中,由于L2正则化项的存在,当模型试图降低原始损失时,同时需要考虑减小权重的平方和。这会促使模型在训练过程中选择较小的权重值,避免权重值过大导致模型对训练数据的过度敏感。

(2)防止过拟合

        较小的权重值意味着模型对单个特征的影响不会过于突出,减少了模型对训练数据中噪声和个别样本特性的过度学习,有利于提高模型在未见过数据上的泛化能力。

三、L2正则化到底是怎么起作用的嘛!

(1)微观上,对激活函数的影响

        激活函数tanh(双曲正切函数)的输出范围在-1到1之间,形状类似于Sigmoid函数但更为平缓,且在两端饱和区的梯度更接近于0。公式就不赘述了之前的文章详细介绍过了,我们在这里只关注函数的图像,从图像上理解就可以了。

         用g(z)=tanh(z)表示,那么我们发现,只要z非常小,如果z只涉及少量参数,我们就只利用了双曲正切函数的线性状态,如下图所示:

        当L2正则化惩罚过大时,模型的权重被迫保持较小的值,也就是说z也会很小。对于tanh激活函数意味着:

  1. tanh函数接近线性(斜率为1),较小的权重导致输入信号大部分位于tanh函数的线性区域内,使得模型的非线性表达能力减弱,趋向于线性模型
  2. 过强的L2正则化可能会限制tanh激活函数充分发挥其非线性变换的能力,尤其是对于需要捕捉复杂非线性关系的任务,模型可能无法有效学习数据的深层次结构。

        在之前的文章中讲到过,如果激活函数都是线性函数,那么无论你的神经网络有多深,节点有很多,都相当于一个简单的线性模型。这就是为什么L2正则化通过约束权重的大小,间接降低了模型的复杂度。

(2)宏观上,对神经网络结构的影响

        现在我们假设一种很极端的情况,正则化参数\lambda非常大,因此对权重的惩罚非常大,导致权重很小,小到约等于0。因为公式z=W^Tx + b,我们如果不考虑偏置。就会得到z=W^Tx=0\cdot x=0,这样一来从神经网络的在该节点的输出a=tanh(0)=0意味着这个神经元死亡了。如果用图来表示的话就是:

        显然,模型的复杂度被降低了,提高模型的泛化能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/552958.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

pajamas 1 daydream.sequence-template

0. 老实交代,最近对于python,非常之感冒 热天气常驻之后,各种毛病就来了:蚊子很彪悍,牙齿不舒服,肠胃那更是一坨 … 虽然不久前,荷包大残,但是关注到 mac mini 之后,就…

项目7-音乐播放器5+注册账号

1.前端代码 MAPPER Insert("insert into user(username,password) values (#{username},#{password}) ")Integer insertUserInfo(String username,String password); Service public Result insertUserInfo(String username, String oldpassword,String newpasswo…

MAC电脑M1安装OpenCV

最近在学习研究OpenCV,奈何只有mac电脑。安装OpenCV感觉还是挺麻烦的,所以记录一下,难免以后会忘记。 安装OpenCV我参考的帖子 https://www.bilibili.com/read/cv23613225/ 一、首先安装Anaconda 目前已安装不做赘述 二、启动命令窗口 方…

SpringBoot搭建环境

创建项目向导 用idea向导建SpringBoot项目:菜单 > File > New > Project… 选择向导: 默认向导 https://start.spring.io 建议用 https://start.aliyun.com 配置项目信息 Group : 组织名 Artifact : 项目名 Version : 版本号 name : 与Artifa…

【在线OJ系统】自定义注解实现分布式ID无感自增

实现思路 首先自定义参数注解,然后根据AOP思想,找到该注解作用的切点,也就是mapper层对于mapper层的接口在执行前都会执行该aop操作:获取到对于的方法对象,根据方法对象获取参数列表,根据参数列表判断某个…

Hbase的简单学习一

一 Hbase的搭建与安装 1.1 安装 1.准备好文件,上传到Linux上 2.解压文件 tar zxvf hbase-2.2.7-bin.tar.gz -C ../ ../是解压到的路径 1.2 配置文件 1.配置环境变量 去etc/profile目录下 export HBASE_HOME/usr/local/soft/hbase-2.2.7 export PATH$PATH:$H…

Midjourney 实现角色一致性的新方法

AI 绘画的奇妙之处,实乃令人叹为观止!就像大千世界中,寻不见两片完全相同的树叶一般,AI 绘画亦复如是。同一提示之词,竟能催生出千变万化的图像,使得AI所绘之作,宛如自然之物般独特,…

在报表控件 FastReport .NET 中使用 PageCreate 事件

FastReport Business Graphics .NET,是一款基于fastreport报表开发控件的商业图形库,借助 FastReport 商业图形库,您可以可视化不同的分层数据,构建业务图表以进行进一步分析和决策。利用数据呈现领域专家针对 .NET 7、.NET Core、…

使用Android studio,安卓手机编译安装yolov8部署ncnn,频繁出现编译错误

从编译开始就开始出现错误,解决步骤: 1.降低graddle版本,7.2-bin --->>> 降低为 6.1.1-all #distributionUrlhttps\://services.gradle.org/distributions/gradle-7.2-bin.zip distributionUrlhttps\://services.gradle.org/di…

【论文阅读】RS-Mamba for Large Remote Sensing Image Dense Prediction(附Code)

论文作者提出了RS-Mamba(RSM)用于高分辨率遥感图像遥感的密集预测任务。RSM设计用于模拟具有线性复杂性的遥感图像的全局特征,使其能够有效地处理大型VHR图像。它采用全向选择性扫描模块,从多个方向对图像进行全局建模,从多个方向捕捉大的空间…

Vue的生命周期的详解

Vue的生命周期是每个使用Vue框架的前端人员都需要掌握的知识,以此作为记录。 Vue的生命周期就是vue实例从创建到销毁的全过程,也就是new Vue() 开始就是vue生命周期的开始。Vue 实例有⼀个完整的⽣命周期,也就是从开始创建、初始化数据、编译…

基于51单片机点滴输液控制系统LCD显示( proteus仿真+程序+设计报告+讲解视频)

基于51单片机点滴输液控制系统LCD显示 1. 主要功能:2. 讲解视频:3. 仿真设计4. 程序代码5. 设计报告6. 设计资料内容清单&&下载链接 基于51单片机点滴输液控制系统LCD显示( proteus仿真程序设计报告讲解视频) 仿真图proteus7.8及以上…

基于开源IM即时通讯框架MobileIMSDK:RainbowChat v11.5版已发布

关于MobileIMSDK MobileIMSDK 是一套专门为移动端开发的开源IM即时通讯框架,超轻量级、高度提炼,一套API优雅支持UDP 、TCP 、WebSocket 三种协议,支持iOS、Android、H5、小程序、Uniapp、标准Java平台,服务端基于Netty编写。 工…

09 SQL进阶 -- SQL高级处理 -- 窗口函数等

1. 窗口函数 1.1 窗口函数概念及基本的使用方法 窗口函数也称为 OLAP 函数。OLAP 是 OnLine AnalyticalProcessing 的简称,意思是对数据库数据进行实时分析处理。 为了便于理解,称之为窗口函数。常规的 SELECT 语句都是对整张表进行查询,而窗口函数可以让我们有选择的去某…

创建一个javascript公共方法的npm包,js-tool-big-box,发布到npm上,一劳永逸

前端javascript的公共方法太多了,时间日期的,数值的,字符串的,搞复制的,搞网络请求的,搞数据转换的,几乎就是每个新项目,有的拷一拷,没有的继续写,放个utils目…

每日一题---OJ题: 用队列实现栈

片头 嗨! 小伙伴们,大家好! 今天我们一起来看看这道OJ题---用队列实现栈,话不多说,我们马上开始~ emmm,题目看似有点长,我们一起来分析分析! 我们都知道,栈的特点是后进先出(Last In First Out,简称 LIFO ),队列的特点是先进先出(First In First Out 简称 FIFO),明明两者的性…

【记录】Python|Selenium 下载 PDF 不预览不弹窗(2024年)

版本: Chrome 124Python 12Selenium 4.19.0 版本与我有差异不要紧,只要别差异太大比如 Chrome 用 57 之前的版本了,就可以看本文。 如果你从前完全没使用过、没安装过Selenium,可以参考这篇博客《【记录】Python3|Sele…

求π的近似值(C语言)

一、N-S流程图&#xff1b; 二、运行结果&#xff1b; 三、源代码&#xff1b; # define _CRT_SECURE_NO_WARNINGS # include <stdio.h> # include <math.h>int main() {//初始化变量值&#xff1b;int symbol 1;double denominator 1.0, sum 0, term 1.0;//循…

Excel文件解析(Java)

一、概述 在应用程序的开发过程中&#xff0c;经常需要使用 Excel文件来进行数据的导入或导出。所以&#xff0c;在通过Java语言实现此类需求的时候&#xff0c;往往会面临着Excel文件的解析(导入&#xff09;或生成&#xff08;导出)。 在Java技术生态圈中&#xff0c…

JVM运行时内存溢出以及解决办法

JVM有哪些运行时数据区 JVM运行时数据区有程序计数器、本地方法栈虚拟机栈、堆、元数据区、直接内存。 其中只有程序计数器不是内存溢出&#xff0c;其他的都有可能会产生内存溢出。 栈内存溢出 当方法的调用深度过深&#xff0c;可能会导致栈内存溢出。 一般是发生在递归调…
最新文章