强化学习入门之MDP

系列文章目录

第一章 强化学习入门之基本概念
第二章 强化学习入门之MDP


强化学习入门之MDP

  • 系列文章目录
  • 前言
  • 1. 简介
    • 1.1 状态值函数
    • 1.2 状态动作值函数
    • 1.3 策略
  • 2. 最优策略求解
    • 2.1 思想
    • 2.2 策略评估
    • 2.3 策略改进
  • 3. 最优值函数求解

前言

我们已经知道使用MDP来对强化学习进行建模,所以这次来学习如何求解MDP
在这里插入图片描述

1. 简介

马尔可夫决策过程的形式为<𝑆,𝐴,𝑃,𝑅,𝛾>,求解MDP通常有两种方式,一种是求解最优策略,另一种是求解最优值函数。
求解之前我们需要了解值函数和策略的概念,

  1. 值函数是为了评估当前状态或状态-动作的期望回报,值函数根据场景分为两种,一种是状态值函数,另一种是状态动作值函数;
  2. 策略对应着MDP中的P,也就是状态转移函数,根据策略智能体进行状态转移。

1.1 状态值函数

在这里插入图片描述
从状态 𝑆 开始, 然后按照策略 𝜋 决策所获得的期望回报。

1.2 状态动作值函数

在这里插入图片描述
从状态 𝑆 开始,采取动作 𝐴, 然后按照策略 𝜋 决策所获得的期望回报。

1.3 策略

在这里插入图片描述
策略完全决定智能体的行为,MDP策略值依赖于当前状态(无关历史)

2. 最优策略求解

2.1 思想

通过不断地改进策略来寻找最优策略,分为两个步骤,策略评估和策略改进。

2.2 策略评估

对当前的策略进行评估,计算每个状态的值函数(表示在该状态下能够获得的预期累积奖励)。通过迭代计算每个状态的值函数,直到值函数收敛。

2.3 策略改进

在策略改进阶段,根据已经计算得到的值函数,更新策略,以便在每个状态下选择更好的行动。通过比较状态动作值函数,选择每个状态下最好的行动,从而改进策略。

3. 最优值函数求解

在这里插入图片描述在这里插入图片描述

在使用策略π 中,状态s的状态价值函数等于在该状态下基于策略π采取所有动作a的概率与相应的价值相乘再求和的结果;
在这里插入图片描述
在这里插入图片描述
使用策略π 时,状态s 下采取动作a 的价值等于即时奖励加上经过衰减后的所有可能的下一个状态的状态转移概率与相应的价值的乘积 。

将两式联立就可以推导得到的两个价值函数的贝尔曼期望方程,而贝尔曼方程是为了在MDP中计算值函数
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/557162.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

对比实验系列:Efficientdet环境配置及训练个人数据集

一、源码下载 可以通过下方链接下载Efficientdet源码 GitHub - zylo117/Yet-Another-EfficientDet-Pytorch: The pytorch re-implement of the official efficientdet with SOTA performance in real time and pretrained weights.The pytorch re-implement of the official …

检测一切YOLO-World的几个实用使用技巧,助力精准高效目标检测任务!

引言 YOLO-World 是一种最先进的零样本目标检测模型。您可以向 YOLO-World 提供任意文本提示&#xff0c;让模型在没有任何微调的情况下识别图像中的对象实例。没有预定义的类别列表&#xff1b;您需要尝试不同的提示&#xff0c;看看模型是否能够以对您的项目可接受的标准来识…

登录解析(后端)

调试登录接口 进入实现类可以有 验证码校验 登录前置校验 用户验证 验证码校验 通过uuid获取redis 中存储的验证码信息&#xff0c;获取后对用户填写的验证码数据进行校验比对 用户验证 1.进入控制器的 /login 方法 2.进入security账号鉴权功能&#xff0c;经过jar内的流…

element plus el-date-picker type=“datetime“ 限制年月日 时分秒选择

如何限制el-date-picker组件的时分秒选中&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01; 文档 文档在这里&#xff1a;DateTimePicker 日期时间选择器 | Element Plus 它提供的disabled-date给我们来限制日期选择 nice&#xff01;&…

Linux的图形资源及指令

一、火车 1.切换到超级用户 su 2.下载资源 yum install -y sl 3.输入指令 sl&#xff0c;得到火车图形 如果没有得到该图形&#xff0c;就将2处改为yum install -y epel-release。 二、Linux的logo 1.在超级用户模式下下载资源 yum install -y linux_logo 2.输…

Microchip逆市扩张,接连收购2家公司

尽管年初传来降薪停工的消息&#xff0c;全球领先的半导体解决方案供应商Microchip并未因此停下扩张的脚步。相反&#xff0c;该公司在短短的一个月内&#xff0c;接连宣布收购两家公司&#xff0c;展现了其坚定的市场布局和前瞻的战略眼光。 4月11日&#xff0c;Microchip成功…

【JavaEE初阶系列】——网络原理之进一步了解应用层以及传输层的UDP协议

目录 &#x1f6a9;进一步讲应用层 &#x1f388;自定义应用层协议 &#x1f388;用什么格式组织 &#x1f469;&#x1f3fb;‍&#x1f4bb;xml(远古的数据组织格式) &#x1f469;&#x1f3fb;‍&#x1f4bb;json(当下最流行得一种数据组织格式) &#x1f469;&…

1097 矩阵行平移(语文题,选做)

输入样例&#xff1a; 7 2 99 11 87 23 67 20 75 89 37 94 27 91 63 50 11 44 38 50 26 40 26 24 73 85 63 28 62 18 68 15 83 27 97 88 25 43 23 78 98 20 30 81 99 77 36 48 59 25 34 22 输出样例&#xff1a; 529 481 479 263 417 342 343 样例解读 需要平移的是第 1、…

ZYNQ-Vitis(SDK)裸机开发之(八)PS端QSPI读写flash操作(包括SPI、Dual SPI、Qual SPI的配置使用)

目录 一、Flash知识简介 二、SPI知识简介 1.SPI引脚介绍 2.SPI协议介绍 3.ZYNQ Quad SPI说明 三、Vivado工程搭建 四、编写Vitis程序 1.ZYNQ QSPI Flash操作的格式&#xff1a; 2.头文件&#xff1a;qspi_hdl.h 3.源文件&#xff1a;qspi_hdl.c 4.编写QSPI Flash读写…

已经下载了pytorch,但在正确使用一段时间后出现No module named torch的错误

问题描述 使用的是叫做m2release的虚拟环境&#xff0c;在此环境下使用conda list可以发现是存在pytorch的&#xff0c;但是运行代码时却报No module named torch的错误。 解决方案 想尝试卸掉这个pytorch重新装一次&#xff0c;但是想卸载会提示找不到&#xff0c;想重新…

redis写入和查询

import redis #redis的表名 redis_biao "Ruijieac_sta" #redis连接信息 redis_obj redis.StrictRedis(hostIP地址, port6379, db1, password密码) # keyytressdfg # value22 ##写入 # redis_obj.hset(redis_biao, key, value) #查询 req_redisredis_obj.hget(red…

Python面试十问

深浅拷贝的区别&#xff1f; 浅拷⻉&#xff1a; 拷⻉的是对象的引⽤&#xff0c;如果原对象改变&#xff0c;相应的拷⻉对象也会发⽣改变。 深拷⻉&#xff1a; 拷⻉对象中的每个元素&#xff0c;拷⻉对象和原有对象不在有关系&#xff0c;两个是独⽴的对象。 浅拷⻉(copy)…

selenium_定位tag_name

第一个input """需求&#xff1a;1. 使用tag_name定位方式&#xff0c;使用注册A.html页面&#xff0c;用户名输入admin方法&#xff1a;1. driver.find_element_by_tag_name("") # 定位元素方法2. send_keys() # 输入方法3. driver.quit() # 退出方…

最小生成树算法的实现c++

最小生成树算法的实现c 题目链接&#xff1a;1584. 连接所有点的最小费用 - 力扣&#xff08;LeetCode&#xff09; 主要思路&#xff1a;使用krusal算法&#xff0c;将边的权值进行排序&#xff08;从小到大排序&#xff09;&#xff0c;每次将权值最小且未加入到连通分量中…

6、Lagent AgentLego 智能体应用搭建(homework)

基础作业 完成 Lagent Web Demo 使用&#xff0c;并在作业中上传截图。文档可见 Lagent Web Demo 0 环境准备 conda create -n agent conda activate agent conda install python3.10 conda install pytorch2.1.2 torchvision0.16.2 torchaudio2.1.2 pytorch-cuda11.8 -c py…

【Linux】动态扩容根目录

Linux&#xff1a;解决centos-root 根目录磁盘空间不足&#xff0c;动态扩容&#xff0c;不删数据 默认安装的root分区只有50G&#xff0c;/home分区有大几百G&#xff0c;可以考虑重新挂载分配空间&#xff0c;不用删除数据&#xff0c;不需要停业务。 查看系统空间 df -h解…

【PDF技巧】PDF文件带有密码,该如何解密?

PDF文件带有打开密码、限制编辑&#xff0c;这两种密码设置了之后如何解密&#xff1f; 不管是打开密码或者是限制编辑&#xff0c;在知道密码的情况下&#xff0c;解密PDF密码&#xff0c;我们只需要在PDF编辑器中打开文件 – 属性 – 安全&#xff0c;将权限状态修改为无保护…

深入理解C语言结构体和位域

目录标题 1. **结构体基础**2. **结构体的定义和使用**3. **结构体内存布局**4. **结构体与函数**5. **位域的定义和使用**6. **位域的实际应用**7. **结构体与位域的混合使用**8. **注意事项和最佳实践**9. **结语** C语言中的结构体和位域是存储和管理数据的重要工具&#xf…

孟德尔随机化(三)—— 再也不用担心网络或其他各种报错啦 | 从数据库下载数据到本地的数据处理方法

前几天咱们分享了看完不会来揍我 | 孟德尔随机化万字长文详解&#xff08;二&#xff09;—— 代码实操 | 附代码注释 结果解读&#xff0c;很多小伙伴们反映在使用代码下载数据时会遇到各种网络或其他报错问题&#xff0c;令人头大的那种&#xff01;不要慌&#xff01;从数据…

每日一题---合并两个有序数组

文章目录 1.前言2.题目2,代码思路3.参考代码 1.前言 上次我们做了移除元素这道题&#xff0c;下来我们看一下合并两个有序数组 2.题目 2,代码思路 创建三个变量&#xff0c;创建三个变量&#xff0c;分别是n1&#xff0c;n2&#xff0c;n3&#xff0c;分别指向nums1[m-1],nums…
最新文章