“具有分布式能源资源的多个智能家庭的能源管理的联邦强化学习”文章学习二

一、准备工作

        本篇文章所使用的缩写总结如下表。

        Markov决策过程(MDP)被定义为元组(S,A,P,R,T),其中S和A是有限的有效状态集和所有有效动作的有限集。函数P : S×A→ P(S)是转移概率函数,其中P(st+1 | st, at)表示在时间t+1进入状态st+1的概率,如果智能体在时间t在状态st执行一个动作at。函数R : S×A×S→ R是奖励函数,其中Rt = R(st, at, st+1)。具有有限时间视图的MDP解决找到参数化的πθ政策∈Π,其中π是由θ参数化的(例如神经网络的权重)。政策πθ确定在每个状态下必须执行的动作a ∈ A,以最大化智能体在有限时间间隔T内接收到的状态转移的折扣累积奖励。在传统的Q学习算法中,πθ政策依赖于Q(st, at)的值-即Q值,它定义了智能体在状态st中选择动作at的好坏。Q值定义为折扣累积未来奖励如下:Q(st, at) = E[[1]ti=0 γiRt+1+i|s = st, a = at]。在此Q值表达式中,γ ∈ [0, 1]是一个折扣因子,它编码了现在和未来奖励的相对重要性。Q学习的目标是识别最大化Q(st, at)的θ参数的π∗θ最优策略,其中t代表终端状态的时刻。

二、深度强化学习

        A2C是一种现代的深度强化学习(DRL)方法,它从动作-评判的概念中脱颖而出。A2C通过适应基线,即优势,来提高DRL算法的性能和稳定性,该优势定义为Aπθ(st, at) = Qπθ(st, at) - Vπθ(st)。这里,Aπθ(st, at)和Qπθ(st, at)代表在智能体在状态st下根据策略πθ选择动作at时的优势和Q值。Vπθ(st)表示在策略πθ下状态st的值,它被定义为智能体将在状态st中获得的折扣累积未来奖励的期望值:Vπθ(st) = E[Rt+1 + γRt+2 + γ2Rt+3 + ···|s = st]。使用优势的目的是减少学习过程中的方差并改善智能体学习过程的收敛性能。A2C方法的目的是最小化损失函数,该损失函数是动作网络和评判网络对应的Lactor t(θ)和Lcritic t(θ)两个不同的损失函数的总和。

在(2)中,pπθ(st, at)是在时间t在状态st下根据策略πθ选择行动at的概率。在(3)中,T Dt = Rt+1 + γVπθ (st+1)是评判家网络的的目标值,可以通过使用时序差分(TD)方法[25]来更新神经网络权重θ以获得该目标值。

三、联邦强化学习

        FRL是一种有希望的机器学习方法,它以分布式方式训练本地设备的神经网络模型,而不共享本地数据。FRL的训练过程包括本地模型的训练和更新本地模型的全球聚合。设N = {1, 2,...N}是一组N个本地设备。每个设备n使用其自己的数据集Dn进行训练并构建自己的模型ωi。在每个本地设备的训练过程完成后,其模型被传输并聚合到一个全局系统中,以估计所有本地设备的全局模型ωG,表示如下:ωG = f(ω1, ω2,...,ωN )。这个全局模型ωG然后广播到所有本地设备,其模型被ωG替换:ωG = ω1 = ω2 ... = ωN。最后,每个本地设备基于全局模型ωG重新开始训练,直到它们都获得所需的模型。在传统的分布式深度强化学习模型中,全局系统必须访问所有本地设备的数据以生成全局系统的深度强化学习模型。这种方法引发了本地设备的数据隐私问题。然而,在FRL方法中,全局系统不需要共享本地数据。因此,FRL可以保护本地数据的隐私。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/151367.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Java排序算法之归并排序

图解 归并排序是一种效率比较高的分治排序算法,主要分为两个步骤,分别为“分”和“并”。 分:将序列不断二分,直到每个子序列只有一个元素为止。 并:将相邻两个子序列进行合并,合并时比较两个子序列的元素…

BUUCTF 被劫持的神秘礼物 1

BUUCTF:https://buuoj.cn/challenges 题目描述: 某天小明收到了一件很特别的礼物,有奇怪的后缀,奇怪的名字和格式。小明找到了知心姐姐度娘,度娘好像知道这是啥,但是度娘也不知道里面是啥。。。你帮帮小明&#xff1…

工作中积累的对K8s的就绪和存活探针的一些认识

首先,我的项目是基于 Spring Boot 2.3.5 的,并依赖 spring-boot-starter-actuator 提供的 endpoints 来实现就绪和存活探针,POM 文件如下图: 下面,再让我们来看下与该项目对应的Deployment的YAML文件,如下…

2023最新最全【虚幻4引擎】下载安装零基础教程

1、创建Epic Games账户 我们先打开浏览器,输入以下网址:unrealengine.com 随后点击【立即开始】 选择许可证类型,此处提供三种选项,分别是【游戏】、【非游戏】以及【私人定制】 第一类许可证适用于游戏和商业互动产品&#xff…

Java代码实现贪吃蛇游戏

一、创建新项目 创建一个新的项目,并命名。创建一个名为images的文件夹用来存放游戏相关图片。然后再在项目的src文件下创建一个com.xxx.view的包用来存放所有的图形界面类,创建一个com.xxx.controller的包用来存放启动的入口类(控制类)。如下所示&…

msvcp140.dll文件的丢失原因以及五个解决办法

在计算机使用过程中,我们常常会遇到一些错误提示,其中之一就是“msvcp140.dll丢失”。这个错误通常会导致某些应用程序无法正常运行。为了解决这个问题,我们需要采取一些措施来修复丢失的msvcp140.dll文件。本文将介绍五个处理办法&#xff0…

【C++】深拷贝与浅拷贝

1、深拷贝与浅拷贝 当我们对复杂类型(结构体或者类)的对象进行初始化时,如果将同类型的对象A赋值给同类型的对象B,此时就涉及深拷贝和浅拷贝的问题。 浅拷贝:简单的赋值拷贝操作。把类/结构体的对象的属性原封不动的赋值给另一个同类型的对…

这可能测试全网最详细的Pytest教程

前言 关于自动化测试,这些年经历了太多的坑,有被动的坑,也有自己主动挖的坑,在这里做了一些总结。 主要思考总结下这些年来自动化测试过程中的一些基本的东西,例如何时进行自动化、如何自动化、或是怎么自动化我们的…

论文绘图-机器学习100张模型图

在现代学术研究和技术展示中,高质量的图表和模型结构图是至关重要的。这尤其在机器学习领域更为显著,一个领域以其复杂的算法和复杂的数据结构而闻名。机器学习是一种使用统计技术使计算机系统能够从数据中学习和改进其任务执行的方法,而有效…

cmake简单使用

简介 理论上,任意一个C程序都可以用g来编译。 但当程序规模越来越大时,一个工程可能有许多个文件夹和源文件,这时输入的编译命令将越来越长。通常,一个小型C项目可能含有十几个类,各类间还存在着复杂的依赖关系。其中…

Python数据容器通用操作

通用操作 1.数据容器可以从以下视角进行简单的分类2.数据容器特点对比3.数据容器的通用操作4.功能总览5.字符串大小比较 1.数据容器可以从以下视角进行简单的分类 是否支持下标索引 支持:列表、元组、字符串 --序列类型不支持:集合、字典 --非序列类型 …

【C++干货铺】解密vector底层逻辑

个人主页点击直达:小白不是程序媛 C系列专栏:C干货铺 代码仓库:Gitee 目录 vector介绍 vector的使用 vector的定义和使用 vector的空间增长问题 vector的增删查改 解密vector及模拟实现 成员变量 成员函数 构造函数 拷贝构造函数…

分类预测 | Matlab实现PSO-LSTM-Attention粒子群算法优化长短期记忆神经网络融合注意力机制多特征分类预测

分类预测 | Matlab实现PSO-LSTM-Attention粒子群算法优化长短期记忆神经网络融合注意力机制多特征分类预测 目录 分类预测 | Matlab实现PSO-LSTM-Attention粒子群算法优化长短期记忆神经网络融合注意力机制多特征分类预测分类效果基本描述程序设计参考资料 分类效果 基本描述 1…

飞书开发学习笔记(七)-添加机器人及发送webhook消息

飞书开发学习笔记(七)-添加机器人及发送webhook消息 一.添加飞书机器人 1.1 添加飞书机器人过程 在群的右上角点击折叠按键…选择 设置 群机器人中选择 添加机器人 选择自定义机器人,通过webhook发送消息 弹出的信息中有webhook地址,选择复制。 安…

【Linux专题】SFTP 用户配置 ChrootDirectory

【赠送】IT技术视频教程,白拿不谢!思科、华为、红帽、数据库、云计算等等https://xmws-it.blog.csdn.net/article/details/117297837?spm1001.2014.3001.5502 红帽认证 认证课程介绍:红帽RHCE9.0学什么内容,新版有什么变化-CSDN…

任正非说:10%的特殊场景就像牛在路上,谁也不知道它会在哪拉屎

你好!这是华研荟【任正非说】系列的第40篇文章,让我们聆听任正非先生的真知灼见,学习华为的管理思想和管理理念。 一、我们要建立核心生产能力,否则我们对供应链理解不深,供应链不能打通。我们之所以管道系统做得好&am…

修改树莓派4b密码

修改树莓派4b密码,vnc viewer远程连接树莓派时忘记了密码,修改为新密码进行远程连接 sudo passwd pi 其中pi为所要修改密码的用户

Java 设计模式——中介者模式

目录 1.概述2.结构3.案例实现3.1.抽象中介类3.2.抽象同事类3.3.具体同事类3.4.具体中介类3.5.测试 4.优缺点5.使用场景 1.概述 (1)一般来说,同事类之间的关系是比较复杂的,多个同事类之间互相关联时,他们之间的关系会…

IDEA这样配置Maven:让你一遍就能学会!

一、安装Maven环境 1.1 下载并安装Maven Maven官网:http://maven.apache.org/download.cgi 建议放在非系统盘目录下,可在根目录新建(D:/maven)目录用于存放Maven,或者如图,路径中不要有中文。 1.2 配置M…

AIGC实战——变分自编码器(Variational Autoencoder, VAE)

AIGC实战——变分自编码器 0. 前言1. 变分自编码器1.1 基本原理1.2 编码器 2. 构建VAE编码器2.1 Sampling 层2.2 编码器2.3 损失函数2.4 训练变分自编码器 3. 变分自编码器分析小结系列链接 0. 前言 我们已经学习了如何实现自编码器,并了解了自编码器无法在潜空间中…