强化学习(TD3)

TD3——Twin Delayed Deep Deterministic policy gradient 双延迟深度确定性策略梯度

TD3是DDPG的一个优化版本,旨在解决DDPG算法的高估问题

优化点:

双重收集:采取两套critic收集,计算两者中较小的值,从而克制收集过估量成绩。

DDPG源于DQN,DQN源于Q_learning,这些算法都是通过估计Q值来寻找最优的策略,在强化学习中,更新Q网络的目标值target为:y=r+\gamma max_{a^{'}}Q\left ( s^{'}, a^{'} \right ),因为样本存在噪声\epsilon,所以真实情况下,有误差的动作价值估计的最大值通常会比真实值更大:E_{\epsilon }\left [ max_{a^{'}}\left ( Q\left ( s^{'},a^{'} \right )+\epsilon \right ) \right ]\geq max_{a^{'}}Q\left ( s^{'},a^{'} \right )

这就不可避免的降低了估值函数的准确度,由于估值方法的计算依据贝尔曼方程,即使用后续状态对估计值进行更新,这种性质又加剧了精确度的下降,在每一次更新策略时,使用一个不准确的估计值将会导致错误被累加,这些贝雷架的错误会导致某一个不好的状态被高估,最终导致策略无法被优化到最优,并使算法无法被收敛。

目标策略平滑正则化:在计算目标值时,加上扰动,从而使得评价更加准确。

延迟更新:让目标网络与当前网络更新不同步,当前网络更新d次之后再对traget网络进行更新;critic更新多次后,actor更新,critic的更新频次多于actor的

伪代码:

采用随机参数\theta _{1}\theta _{2}\phi初始化critic网络Q_{\theta _{1}}Q_{\theta _{2}}以及actor网络\pi _{\phi }

初始化目标critic、actor网络:\theta _{1}^{'}\leftarrow \theta _{1}\theta _{2}^{'}\leftarrow \theta _{2}\phi ^{'}\leftarrow \phi

初始化回放缓存区R

for t=1 to T do

        选择动作并添加探索噪声a=\pi _{\phi }\left ( s \right )+\epsilon\epsilon服从某种分布,执行动作后获得奖励r和新的状态s^{'},将经验值\left ( s, a, r, s^{'} \right )存入回放缓存区

        从回放缓存区中抽取小批量样本数据:

                \tilde{a}\leftarrow \pi _{\phi ^{'}}\left ( s^{'} \right )+\epsilon

                y\leftarrow r+\gamma min_{i=1,2}Q_{\theta _{i}^{'}}\left ( s^{'},\tilde{a} \right )

        更新critic网络参数:\theta _{i}\leftarrow argmin_{\theta _{i}}N^{-1}\sum_{}^{}\left ( y-Q_{\theta _{i}} \left ( s, a \right )\right )^{2}

        如果 t mod d then

                通过确定性策略梯度更新actor网络参数:

        ​​​​​​​        \triangledown _{\phi }J\left ( \phi \right )=N^{-1}\sum \triangledown _{a}Q_{\theta _{1}}\left ( s,a \right )|_{a=\pi _{\phi \left ( s \right )}}\triangledown _{\phi }\pi _{\phi }\left ( s \right )

                更新目标网络参数:

                \theta_{i}^{'}\leftarrow \tau \theta _{i}+\left ( 1-\tau \right )\theta _{i}^{'}

                \phi ^{'}\leftarrow \tau \phi _{i}+\left ( 1-\tau \right )\phi ^{'}

        end for

end for

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/396192.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【软考高级信息系统项目管理师--第十九章:项目绩效域】

🚀 作者 :“码上有前” 🚀 文章简介 :软考高级–信息系统项目管理师 🚀 欢迎小伙伴们 点赞👍、收藏⭐、留言💬 第十九章:项目绩效域 干系人绩效域预期目标绩效要点 团队绩效域预期目…

【Java】零基础蓝桥杯算法学习——动态规划例题

例题:2023年第十四届蓝桥杯Java软件开发B组E题 蜗牛 参考解答: 参考代码示例: import java.util.Scanner; public class Main {static int N 100010;static int[] arr new int[N];static int[] a new int[N]; //传送带的起始坐标static …

[杂记]mmdetection3.x中的数据流与基本流程详解(数据集读取, 数据增强, 训练)

之前跑了一下mmdetection 3.x自带的一些算法, 但是具体的代码细节总是看了就忘, 所以想做一些笔记, 方便初学者参考. 其实比较不能忍的是, 官网的文档还是空的… 这次想写其中的数据流是如何运作的, 包括从读取数据集的样本与真值, 到数据增强, 再到模型的forward当中. 0. MMDe…

打字侠,提供免费的五笔打字练习

在当今数字化时代,打字已成为生活和工作中不可或缺的技能之一。特别是在办公室环境中,快速准确地输入文字对提高工作效率至关重要。而对于许多中文输入法用户来说,五笔输入法因其高效和便捷而备受青睐。 然而,掌握五笔输入法并非…

JVM原理

一、java虚拟机的生命周期: Java虚拟机的生命周期 一个运行中的Java虚拟机有着一个清晰的任务:执行Java程序。程序开始执行时他才运行,程序结束时他就停止。你在同一台机器上运行三个程序,就会有三个运行中的Java虚拟机。 Java虚拟…

一休哥助手网页版如何使用

一休哥助手网页版可以使用GPT4提问了,具体操作流程如下: 1.登录网页版一休哥助手(首次打开页面时,初始化久一点,请耐心等一下) https://www.fudai.fun 2.登录后就可以使用GPT4了 3.你还可以自定义系统角色…

vtkBoarderWidget及图片坐标包含计算

开发环境: Windows 11 家庭中文版Microsoft Visual Studio Community 2019VTK-9.3.0.rc0vtk-example demo解决问题:移动图片到坐标轴的中心,创建一个vtkBoarderWidget控件,移动控件,计算控件与图片的包含关系 关键点…

K3s v1.26.0-rc.0-k3s1 部署Harbor私库权限配置

在K3s服务端配置 cat >> /etc/rancher/k3s/registries.yaml <<EOF mirrors: "harbor.baize-k3s.org": endpoint: - "https://harbor.baize-k3s.org" configs: "harbor.baize-k3s.org": auth: username: admin password: Harbor1…

LiveGBS流媒体平台GB/T28181常见问题-基础配置流媒体服务配置中本地|内网IP外网IP(可选)外网IP收流如何配置

LiveGBS常见问题基础配置流媒体服务配置中本地|内网IP外网IP外网IP收流如何配置&#xff1f; 1、流媒体服务配置2、播放提示none rtp data receive3、多网卡服务器4、收流端口配置5、端口区间可以如何配置6、搭建GB28181视频直播平台 1、流媒体服务配置 LiveGBS中基础配置-》流…

ssm在线学习平台-计算机毕业设计源码09650

目 录 摘要 1 绪论 1.1 选题背景及意义 1.2国内外现状分析 1.3论文结构与章节安排 2 在线学习平台系统分析 2.1 可行性分析 2.2 系统业务流程分析 2.3 系统功能分析 2.3.1 功能性分析 2.3.2 非功能性分析 2.4 系统用例分析 2.5本章小结 3 在线学习平台总体设计 …

HCIA-HarmonyOS设备开发认证V2.0-IOT硬件子系统-I2C

目录 一、 I2C 概述二、I2C 模块相关API三、接口调用实例四、I2C HDF驱动开发4.1、开发步骤(待续...) 坚持就有收获 一、 I2C 概述 I2C&#xff08;Inter Integrated Circuit&#xff09;集成电路间总线是由 Philips 公司开发的一种简单、双向二线制同步串行总线。I2C 以主从方…

Unity老项目Android 13支持

Unity老项目Android 13支持 前言 Google官方要求新、老app在一定时间要求内需要面向Android 12、Android 13构建&#xff0c;不然不给app过审。我们之前是面向Android API 30构建的&#xff0c;现在需要支持面向Android API 33构建。 https://developer.android.com/about/ver…

为什么2023年是AI视频的突破年,以及对2024年的预期#a16z

2023年所暴露的AI生成视频的各种问题&#xff0c;大部分被OpenAI发布的Sora解决了吗&#xff1f;以下为a16z发布的总结&#xff0c;在关键之处&#xff0c;我做了OpenAI Sora的对照备注。 推荐阅读&#xff0c;了解视频生成技术进展。 Why 2023 Was AI Video’s Breakout Year,…

怎么清理mac系统缓存系统垃圾文件 ?怎么清理mac系统DNS缓存

很多使用苹果电脑的用户都喜欢在同时运行多个软件&#xff0c;不过这样会导致在运行一些大型软件的时候出现不必要的卡顿现象&#xff0c;这时候我们就可以去清理下内存&#xff0c;不过很多人可能并不知道正确的清内存方式&#xff0c;下面就和小编一起来看看吧。 mac系统是一…

力扣94 二叉树的中序遍历 (Java版本) 递归、非递归

文章目录 题目描述递归解法非递归解法 题目描述 给定一个二叉树的根节点 root &#xff0c;返回 它的 中序 遍历 。 示例 1&#xff1a; 输入&#xff1a;root [1,null,2,3] 输出&#xff1a;[1,3,2] 示例 2&#xff1a; 输入&#xff1a;root [] 输出&#xff1a;[] 示…

chrome版本117驱动下载路,解决版本不匹配问题

&#x1f525; 交流讨论&#xff1a;欢迎加入我们一起学习&#xff01; &#x1f525; 资源分享&#xff1a;耗时200小时精选的「软件测试」资料包 &#x1f525; 教程推荐&#xff1a;火遍全网的《软件测试》教程 &#x1f4e2;欢迎点赞 &#x1f44d; 收藏 ⭐留言 &#x1…

伦敦金适合现在进行投资吗?

伦敦金作为一种贵金属投资品种&#xff0c;近年来在全球范围内受到了越来越多的关注。那么&#xff0c;伦敦金适合现在进行投资吗&#xff1f;在回答这个问题之前&#xff0c;我们先来了解一下什么是伦敦金。 伦敦金&#xff0c;顾名思义&#xff0c;是指在伦敦市场上交易的黄…

小白都能看懂的力扣算法详解——哈希表(一)

&#xff01;&#xff01;本篇所选题目及解题思路均来自​​​​​​代码随想录 (programmercarl.com) 一 LC242.有效的字母异位词 题目要求&#xff1a; 给定两个字符串 s 和 t &#xff0c;编写一个函数来判断 t 是否是 s 的字母异位词。 注意&#xff1a;若 s 和 t 中每个字…

阿里云服务器镜像是什么?如何选择镜像?

阿里云服务器镜像怎么选择&#xff1f;云服务器操作系统镜像分为Linux和Windows两大类&#xff0c;Linux可以选择Alibaba Cloud Linux&#xff0c;Windows可以选择Windows Server 2022数据中心版64位中文版&#xff0c;阿里云服务器网aliyunfuwuqi.com来详细说下阿里云服务器操…

社交商业策略:揭秘Facebook Shops的成功之道

随着数字化时代的不断发展&#xff0c;社交媒体已经成为了商业活动的重要平台之一。在这个趋势下&#xff0c;Facebook作为全球最大的社交媒体平台之一&#xff0c;不仅仅是人们交流互动的场所&#xff0c;更成为了商家开展电子商务的重要渠道。其中&#xff0c;Facebook Shops…
最新文章