BP神经网络原理

1.基本概念

1.1 简介

BP神经网络(Back Propagation Neural Network)是一种基于误差反向传播算法(Back Propagation Algorithm)的人工神经网络,也是应用最广泛的神经网络之一。它可以用来解决分类、回归、模式识别、数据挖掘等多种问题。

BP神经网络由输入层、隐层和输出层组成,其中隐层可以包含多个神经元,用于处理输入数据的非线性映射关系。BP神经网络的训练过程包括前向传播和反向传播两个步骤。

BP神经网络的优点是可以处理非线性问题,并且具有较高的精度和可扩展性。缺点是容易出现过拟合问题,需要采取一些正则化方法进行控制。此外,BP神经网络的训练过程需要大量的计算和存储资源,训练时间较长。

BP神经网络已经被广泛应用于各种领域,如图像处理、语音识别、自然语言处理、金融风险评估等。

1.2 前向传播

前向传播:将输入数据通过网络的输入层传递到隐层和输出层,计算输出结果。

前向传播是神经网络中的一种计算方式,用于将输入的数据传递到网络中的每个神经元,并计算出网络的输出结果。在前向传播过程中,输入数据会经过一系列的加权和非线性变换,同时经过每个神经元的激活函数,传递到下一层,最终得到网络的输出结果。

具体来说,前向传播可以分为以下几个步骤:

  1. 将输入数据传递到网络的第一层(输入层),每个输入变量对应一个输入神经元;

  1. 将输入数据经过输入层的加权和非线性变换,传递到网络的下一层(隐层或输出层);

  1. 重复第二步,直到数据传递到网络的最后一层(输出层),计算出网络的输出结果;

  1. 将输出结果与实际标签进行比较,计算误差。

在前向传播过程中,每个神经元的输出值都是由上一层的输出值和该神经元的权重以及偏置值共同决定的。通常,神经元的输出值会经过一个激活函数,如sigmoid函数或ReLU函数,将其映射到一定的范围内,以保证输出值的非线性特性。

前向传播是神经网络中的一个基本计算过程,它为后续的反向传播提供了基础。在神经网络的训练过程中,前向传播和反向传播交替进行,以调整网络中各个神经元的权重和偏置,提高网络的精度和性能。

1.3 反向传播

反向传播:根据输出结果和实际标签之间的误差,通过误差反向传播算法,调整网络中每个神经元的权重和偏置,以降低误差值,并提高网络的精度

反向传播(Back Propagation)是神经网络中的一种训练方法,通过反向传播算法来调整网络中每个神经元的权重和偏置,以降低误差值,并提高网络的精度。

反向传播算法的基本思想是利用链式法则(Chain Rule)对网络中每个神经元的权重和偏置进行调整,从而最小化网络输出与实际标签之间的误差。

具体来说,反向传播可以分为以下几个步骤:

  1. 前向传播:将输入数据通过网络的输入层传递到隐层和输出层,计算输出结果;

  1. 计算误差:将输出结果与实际标签之间的误差传递回网络,计算误差值;

  1. 反向传播:根据误差值和链式法则,从输出层向输入层逐层计算每个神经元的梯度,即权重和偏置对误差的偏导数;

  1. 更新权重和偏置:根据计算得到的梯度信息,调整每个神经元的权重和偏置,以降低误差值,并提高网络的精度。

反向传播算法的优点是可以高效地调整神经元的权重和偏置,以提高网络的精度和性能。缺点是容易出现过拟合问题,需要采取一些正则化方法进行控制。此外,反向传播算法的训练过程需要大量的计算和存储资源,训练时间较长。

反向传播算法是神经网络中的核心算法之一,对于神经网络的训练和应用具有重要的意义。

2.BP算法详解

2.1 构成示意图

图2-1 BP神经网络的基本构成

如图2-1所示,这是典型的三层神经网络的基本构成,Layer 是输入层(input layer),Layer 是隐含层(hidden layer),Layer 是隐含层(output layer)。其中输入层,输出层一般只有1层,而隐藏层取决于具体实例的学习进程,可以设置多层次。

一组数据,经过输入层的加权和非线性变换进入隐藏层,再经过同样的操作最终进入输出层。输出的结果是我们的预测值。此时需要比较预测值与真实值的区别,通过偏导数计算调节权重与偏置,不断迭代得到与真实值近似的预测值。

2.2 举例说明

在本节,将举一个例子带入数值演示反向传播法的过程。该部分的演示过程和数据参考了BP算法详解。

假设存在图2-2这样一个网络结构:

图2-2 BP神经网络示例流程图

表2-1 初始设置和最终目标

输入数据

x1=0.05

x2=0.10

输出数据

o1=0.01

o2=0.99

初始权重

w1=0.15

w2=0.20

w3=0.25

w4=0.30

初始权重

w5=0.40

w6=0.45

w7=0.50

w8=0.55

目标

给出输入数据x1,x2(0.05和0.10),使输出尽可能与原始输出o1,o2(0.01和0.99)接近。

Step 1 前向传播

1. 输入层 隐藏层

计算神经元h1的输入加权和:

神经元h1的输出o1:(此处用到激活函数为sigmoid函数):

同理,可计算出神经元h2的输出o2:

2. 隐藏层 输出层

计算输出层神经元o1和o2的值:

前向传播的过程结束,得到输出值为[0.75136079 , 0.772928465],与实际值[0.01 , 0.99]相差还很远。

现在我们对误差进行反向传播,更新权值,重新计算输出。

Step 2 反向传播

  1. 计算总误差

总误差(Square Error)公式:

所以,两个输出的误差可以分别被计算出来,并得到误差之和:

  1. 隐藏层 输出层的权值更新

以权重参数w5为例,如果我们想知道w5对整体误差产生了多少影响,可以用整体误差对w5求偏导求出(链式法则),图2-3也可以直观的看出误差是如何反向传播的:

图2-3 反向传播: 隐藏层 → 输出层

可以计算求出整体误差 E(total) 对 w5 的偏导值:

最后更新w5的值:

其中, 是学习率,这里取0.5。

同理可以更新w6,w7,w8的值。

  1. 输入层 隐藏层的权值更新

在上文计算总误差对w5的偏导时,是从out(o1)—->net(o1)—->w5,但是在输入层和隐藏层之间的权值更新时,是out(h1)—->net(h1)—->w1,而out(h1)会接受E(o1)和E(o2)两个地方传来的误差,所以这个地方两个都要计算。计算流程见图2-4。

图2-4 反向传播: 输入层 → 隐藏层

可以计算求出整体误差 E(total) 对 w1 的偏导值:

最后,更新w1的权值:

同理,也可更新w2,w3,w4的权值。

这样误差反向传播法就完成了,最后我们再把更新的权值重新计算,不停地迭代,在这个例子中第一次迭代之后,总误差E(total)由0.298371109下降至0.291027924。迭代10000次后,总误差为0.000035085,输出为[0.015912196,0.984065734](原始输出为[0.01,0.99]),证明效果还是不错的。

3.代码演示

import torch

# 定义输入数据和标签
X = torch.Tensor([[0, 0], [0, 1], [1, 0], [1, 1]])
y = torch.Tensor([[0], [1], [1], [0]])

# 定义神经网络结构
net = torch.nn.Sequential(
    torch.nn.Linear(2, 4),
    torch.nn.Sigmoid(),
    torch.nn.Linear(4, 1),
    torch.nn.Sigmoid()
)

# 定义损失函数和优化器
criterion = torch.nn.MSELoss()
optimizer = torch.optim.SGD(net.parameters(), lr=0.1)

# 训练神经网络
for epoch in range(10000):
    # 前向传播
    y_pred = net(X)
    
    # 计算损失函数
    loss = criterion(y_pred, y)
    
    # 反向传播
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()
    
    # 每隔1000次迭代输出一次损失函数的值
    if epoch % 1000 == 0:
        print('Epoch:', epoch, 'Loss:', loss.item())

# 测试神经网络
with torch.no_grad():
    y_pred = net(X)
    print('Predict:', y_pred)

在该代码中,我们首先定义了输入数据和标签。然后定义了神经网络结构,包括两个全连接层和一个激活函数(Sigmoid)。接着定义了损失函数和优化器(采用随机梯度下降算法)。最后使用 for 循环训练神经网络,每隔1000次迭代输出一次损失函数的值。在训练完成后,使用 with torch.no_grad() 禁用梯度计算,再次输入训练数据,得到预测结果。

需要注意的是,PyTorch 的神经网络模型需要继承自 torch.nn.Module 类,并实现 forward() 方法。在本例中,我们使用了 Sequential 类来定义神经网络结构,它可以将多个层组合在一起形成一个完整的神经网络。在反向传播时,需要调用 optimizer.zero_grad() 来清空梯度信息,然后调用 loss.backward() 计算梯度,最后调用 optimizer.step() 更新参数。

图2-5 BP算法示例代码运行结果

图2-5展示的是迭代100000次后的运行结果,每10000次迭代输出一次损失函数的值。

最终输出为 [[0.0163], [0.9839], [0.9839], [0.0177]], 与原始输出 [[0], [1], [1], [0]] 相比绝对误差不超过2%,且每万次迭代后Loss都有明显下降。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/321596.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

imgaug库指南(23):从入门到精通的【图像增强】之旅

引言 在深度学习和计算机视觉的世界里,数据是模型训练的基石,其质量与数量直接影响着模型的性能。然而,获取大量高质量的标注数据往往需要耗费大量的时间和资源。正因如此,数据增强技术应运而生,成为了解决这一问题的…

抖音矩阵云混剪系统源码多平台多账号一站式管理(免授权版)

抖音矩阵云混剪系统源码 短视频矩阵营销系统V2.2.1(免授权版) 中网智达矩阵营销系统多平台多账号一站式管理,一键发布作品。智能标题,关键词优化,排名查询,混剪生成原创视频,账号分组,意向客户自动采集,智能回复,多账号评论聚合回复,免切换,免登陆发布….助力您在…

Altium开源硬件

1、FMC ADC 250M 16B 4CHA 2、VME FMC Carrier VFC 3、armadillo 4、FMC DEL 1ns 4cha 5、FMC Carrier tester 6、FMC ADC 1G 8b 2cha 7、HiCCE-FMC-128 8、FMC ADC 130M 16b 4cha 9、VME ADC 250k 16b 36cha 10、FMC DIO 32ch TTL a 11、FMC DAC 600M 12b 1cha DD…

【前端框架】Vue2合集

一、Vue快速上手 1、Vue概念 vue 是一个用于构建用户界面的渐进式框架&#xff0c;由数据驱动 vue 的两种使用方式 vue 核心包开发&#xff1a;局部模块改造vue 核心包与 vue 插件 工程化开发&#xff1a;整站 开发 2、 创建实例 1、准备容器 <div id"app"&…

腾讯云把向量数据库“卷”到哪一步了?

“不是我不明白&#xff0c;这世界变化快”&#xff0c;崔健在20世纪写下的这句歌词&#xff0c;放在刚刚过去的2023年&#xff0c;也同样适用。技术风向的变化之快&#xff0c;让不少人感到惊讶&#xff0c;向量数据库这一年的潮起潮落&#xff0c;就是一个典型的例子。 2023年…

文本编码转换:如何从UTF8到ANSI的批量处理技巧

在处理文本文件时&#xff0c;经常会遇到不同编码格式的问题。不同的编码会导致文件在打开或显示时出现乱码。UTF-8和ANSI是两种常见的编码格式。现在一起来看“办公提效工具”如何从UTF-8批量转换到ANSI编码的操作。 文本编码UTF-8未修改前的截图展示。 批量转换ANSI编码的方…

电子学会C/C++编程等级考试2023年09月(五级)真题解析

C/C++编程(1~8级)全部真题・点这里 第1题:红与黑 有一间长方形的房子,地上铺了红色、黑色两种颜色的正方形瓷砖。你站在其中一块黑色的瓷砖上,只能向相邻的黑色瓷砖移动。请写一个程序,计算你总共能够到达多少块黑色的瓷砖。 时间限制:1000 内存限制:65536 输入 包括多…

Codeforces Round 779 (Div. 2) D2. 388535(思维题 二进制性质/trie树上最大最小异或)

题目 t(t<1e5)组样例&#xff0c;每次给定l,r(0<l<r<2^17) 和r-l1个数ai&#xff0c;新序列是被[l,r]这些数异或上同一个x得到的&#xff0c; 求出x&#xff0c;有多个输出任意一个即可 思路来源 官方题解 洛谷题解 Educational Codeforces Round 157 (Rated…

MetaGPT学习笔记 - task1task2

章节&#xff1a;task1&task2 一.github地址&#xff1a;github.com/geekan/MetaGPT 二.MetaGPT: 多智能体框架​ 使 GPT 以软件公司的形式工作&#xff0c;协作处理更复杂的任务 MetaGPT输入一句话的老板需求&#xff0c;输出用户故事 / 竞品分析 / 需求 / 数据结构 / A…

流星全自动网页生成系统重构版源码

流星全自动网页生成系统重构版源码分享&#xff0c;所有模板经过精心审核与修改&#xff0c;完美兼容小屏手机大屏手机&#xff0c;以及各种平板端、电脑端和360浏览器、谷歌浏览器、火狐浏览器等等各大浏览器显示。 为用户使用方便考虑&#xff0c;全自动网页制作系统无需繁琐…

分布式任务调度平台XXL-JOB使用(二)

说明&#xff1a;之前总结过在CentOS系统里使用XXL-JOB。但在代码开发阶段&#xff0c;我们有时需要在本地环境测试定时任务代码&#xff0c;本文介绍如何在Windows系统使用XXL-JOB。 下载 &#xff08;1&#xff09;下载代码&#xff0c;解压打开 首先&#xff0c;去Github…

新手入门Java数组排序及二维数组(有练习)

第七章 二维数组 课前回顾 1.数组的定义方式都有哪几种 数据类型[] 数组名; 数组名 new 数据类型[数组的长度];数据类型[] 数组名 new 数据类型[数组的长度];数据类型[] 数组名 {数组的元素1,数组的元素2,...数组的元素n};//只能在定义数组时直接赋值的时候使用数据类型[…

HTML--CSS--图片和背景样式

图片样式 图片大小 最基本的应该就是对大小的管理 width:像素值; 宽度 height:像素值; 高度 <!DOCTYPE html> <html> <head> <title>这是一个标题</title><meta charset"utf-8"/><style>img{width: 300px;height: 300px…

从零开始的OpenGL光栅化渲染器构建2-冯式光照

冯式光照的构成 冯式光照模型(Phong Lighting Model)的主要结构由三个分量组成&#xff1a;环境(Ambient)、漫反射(Diffuse)和镜面(Specular)光照。 环境光 把环境光照添加到场景里非常简单。我们用光的颜色乘以一个很小的常量环境因子&#xff0c;再乘以物体的颜色&#xf…

【矩阵快速幂】封装类及测试用例及样例

作者推荐 视频算法专题 通俗的说&#xff0c;就是矩阵的乘方。 封装类 核心代码 class CMat { public:// 矩阵乘法static vector<vector<long long>> multiply(const vector<vector<long long>>& a, const vector<vector<long long>…

模拟器安装XPosed框架教程

Xposed框架下载&#xff08;搞不懂就先看完本篇教程再下载&#xff09; 99%的情况只需要下载里面的XPosed鸭就行了 安卓8及以下XPosed框架 - 多开鸭模拟器安装XPosed框架图文视频教程 关于本站XPosed框架的说明 XPosed框架(即XP框架)&#xff0c;由rovo89开发。适用于安卓7以…

任务6:启动Hadoop集群并测试

任务描述 知识点&#xff1a; 掌握Hadoop集群的启动 重 点&#xff1a; Hadoop集群的格式化流程Hadoop集群的启动流程 内 容&#xff1a; 格式化Hadoop集群启动测试Hadoop集群 任务指导 启动Hadoop集群并测试&#xff0c;过程如下&#xff1a; 初始化HDFS&#xff1…

C++面试宝典第19题:最长公共前缀

题目 编写一个函数来查找字符串数组中的最长公共前缀,如果不存在公共前缀,返回空字符串""。说明:所有输入只包含小写字母a-z。 示例1: 输入: ["flower", "flow", "flight"]输出: "fl" 示例2: 输入: ["dog",…

指针面试题详解

文章目录 指针笔试题解析笔试题1笔试题2笔试题3笔试题4笔试题5笔试题6笔试题7笔试题8 总结 指针笔试题解析 数组名是首元素地址,两种情况除外: 1.sizeof(数组名) , 这是这是计算整个数组的大小,单位是字节; 2.&数组名 , 得出的是整个数组的地址; 笔试题1 #include<st…

学习Vue配置代理总结

今天学习了Vue的配置代理&#xff0c;当我们想要向服务器取回来数据时就先要向服务器发送请求&#xff0c;但前端发送请求的方式也有很多种&#xff0c;首先是发送请求的鼻祖JS的XMLHttpRequest&#xff08;xhr&#xff09;&#xff0c;它操作起来相对麻烦&#xff0c;开发中也…
最新文章