Matlab DDPG

文章目录

  • 1 rlSimulinkEnv
    • 1.1 说明
    • 1.2 例子
      • 1.2.1 使用工作空间Agent创建Simulink环境
      • 1.2.2 为Simulink模型创建强化学习环境
      • 1.2.3 创建Simulink多Agents环境
  • 2 创建Simulink环境和训练Agent
    • 2.1 创建环境接口
    • 2.2 创建DDPG Agent
    • 2.3 训练Agent
    • 2.4 验证已训练的Agent
  • 3 创建Simulink强化学习环境
    • 3.1 Action and Observation信号
    • 3.2 定制Simulink环境
  • 4 RL Agent
  • 5 Deep Deterministic Policy Gradient Agents
    • 5.1 Actor and Critic Functions
    • 5.2 Agent Creation
    • 5.3 Training Algorithm
    • 5.4 Target Update Methods
  • 参考链接

1 rlSimulinkEnv

1.1 说明

rlSimulinkEnv函数从Simulink®模型中创建强化学习环境对象。环境对象起接口作用,当调用sim或train时,这些函数反过来调用Simulink模型,为智能体生成经验。

  1. env = rlSimulinkEnv(mdl, agentBlocks)为Simulink模型mdl创建强化学习环境对象env,agentBlocks包含到mdl中一个或多个强化学习agent块的路径。如果使用这种语法,每个agent块必须引用MATLAB®工作空间中已经存在的agent对象。
  2. env = rlSimulinkEnv(mdl, agentBlocks, obsInfo, actInfo)为模型mdl创建强化学习环境对象env。两个单元数组obsInfo和actInfo必须包含mdl中每个agent块的观测和动作规范,与它们出现在agentBlocks中的阶数相同。
  3. env = rlSimulinkEnv( _ _ , ‘UseFastRestart’, fastRestartToggle)创建了一个强化学习环境对象env,并支持快速重启。在前面语法中的任何一个输入参数之后使用这个语法。

1.2 例子

1.2.1 使用工作空间Agent创建Simulink环境

在MATLAB®工作空间中加载agent。

load rlWaterTankDDPGAgent

为rlwatertank模型创建环境,其中包含一个RL Agent模块。由于区块所使用的agent已经在工作空间中,因此不需要通过观测和动作规范来创建环境。

env = rlSimulinkEnv('rlwatertank','rlwatertank/RL Agent')
env = 
SimulinkEnvWithAgent with properties:

           Model : rlwatertank
      AgentBlock : rlwatertank/RL Agent
        ResetFcn : []
  UseFastRestart : on

通过进行两个样本时间的短暂模拟来验证环境。

validateEnvironment(env)

现在可以分别使用train和sim对环境中的Agent进行训练和仿真。

1.2.2 为Simulink模型创建强化学习环境

打开模型:

mdl = 'rlSimplePendulumModel';
open_system(mdl)

分别创建rlNumericSpec和rlFiniteSetSpec对象用于观察和动作信息。

obsInfo = rlNumericSpec([3 1]) % vector of 3 observations: sin(theta), cos(theta), d(theta)/dt
obsInfo = 
  rlNumericSpec with properties:

     LowerLimit: -Inf
     UpperLimit: Inf
           Name: [0x0 string]
    Description: [0x0 string]
      Dimension: [3 1]
       DataType: "double"
actInfo = rlFiniteSetSpec([-2 0 2]) % 3 possible values for torque: -2 Nm, 0 Nm and 2 Nm
actInfo = 
  rlFiniteSetSpec with properties:

       Elements: [3x1 double]
           Name: [0x0 string]
    Description: [0x0 string]
      Dimension: [1 1]
       DataType: "double"

对于rlNumericSpec和rlFiniteSetSpec对象,可以使用点数表示法赋值属性值。

obsInfo.Name = 'observations';
actInfo.Name = 'torque';

分配智能体分块路径信息,利用前面步骤提取的信息为Simulink模型创建强化学习环境。

agentBlk = [mdl '/RL Agent'];
env = rlSimulinkEnv(mdl,agentBlk,obsInfo,actInfo)
env = 
SimulinkEnvWithAgent with properties:

           Model : rlSimplePendulumModel
      AgentBlock : rlSimplePendulumModel/RL Agent
        ResetFcn : []
  UseFastRestart : on

还可以包括使用点符号的reset功能。对于该实例,在模型工作空间中随机初始化theta0。

env.ResetFcn = @(in) setVariable(in,'theta0',randn,'Workspace',mdl)
env = 
SimulinkEnvWithAgent with properties:

           Model : rlSimplePendulumModel
      AgentBlock : rlSimplePendulumModel/RL Agent
        ResetFcn : @(in)setVariable(in,'theta0',randn,'Workspace',mdl)
  UseFastRestart : on

1.2.3 创建Simulink多Agents环境

在MATLAB工作空间中加载智能体。

load rlCollaborativeTaskAgents

为rlCollaborativeTask模型创建一个环境,该环境有两个Agent块。由于两个区块( agentA和agentB)所使用的智能体已经在工作空间中,因此不需要通过它们的观察和动作规范来创建环境。

env = rlSimulinkEnv('rlCollaborativeTask',["rlCollaborativeTask/Agent A","rlCollaborativeTask/Agent B"])
env = 
SimulinkEnvWithAgent with properties:

           Model : rlCollaborativeTask
      AgentBlock : [
                     rlCollaborativeTask/Agent A
                     rlCollaborativeTask/Agent B
                   ]
        ResetFcn : []
  UseFastRestart : on

2 创建Simulink环境和训练Agent

该实例的原始模型为水箱模型:
在这里插入图片描述
对原模型进行以下修改:

  • 删除PID控制器,改由强化学习控制器;
  • 插入RL Agent模块
  • 串联观测向量 [ ∫ e d t , e , h ] T [\int edt, e, h]^T [edt,e,h]T,其中h是水箱高度, e = r − h e=r-h e=rh,r是参考高度;
  • 设置奖励 r e w a r d = 10 ( ∣ e ∣ < 0.1 ) − 1 ( ∣ e ∣ ≥ 0.1 ) − 100 ( h ≤ 0 ∣ ∣ h ≥ 20 ) reward=10(|e|<0.1)-1(|e|\ge0.1)-100(h\le0||h\ge20) reward=10(e<0.1)1(e0.1)100(h

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/470273.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

opengl日记7-ubuntu20.04开发环境opengl拓展glfw和glad环境搭建

文章目录 ubuntu中安装opengl核心环境安装glfw安装glad测试验证程序vscode的task.json配置如下note参考 ubuntu中安装opengl核心环境 可执行如下命令进行整体安装&#xff1a; sudo apt-get install libgl1-mesa-dev*或者单独安装 1、提供编译程序必须软件包的列表信息 sud…

【NLP笔记】Transformer

文章目录 基本架构EmbeddingEncoderself-attentionMulti-Attention残差连接LayerNorm DecoderMask&Cross Attention线性层&softmax损失函数 论文链接&#xff1a; Attention Is All You Need 参考文章&#xff1a; 【NLP】《Attention Is All You Need》的阅读笔记 一…

智慧城市的发展趋势与挑战:未来展望

随着信息技术的飞速发展&#xff0c;智慧城市已成为现代城市发展的重要方向。智慧城市通过集成应用先进的信息通信技术&#xff0c;实现城市管理、服务、运行的智能化&#xff0c;为城市的可持续发展注入了新的活力。然而&#xff0c;在智慧城市的发展过程中&#xff0c;也面临…

自动化改变金融科技文档生命周期

金融科技公司可能处于软件开发的最前沿&#xff0c;但即使是最先进的系统也必须能够支持金融服务领域采用的一系列文档密集型程序。因此&#xff0c;绝大多数金融科技企业都使用数字文档管理解决方案&#xff0c;无论是内部构建的还是由第三方供应商开发的。金融科技公司可以通…

3D开发工具HOOPS如何助力3D项目实现扩展现实技术?

在当今数字化时代&#xff0c;扩展现实&#xff08;Augmented Reality&#xff0c;AR&#xff09;技术的应用已经逐渐深入到各行各业&#xff0c;为用户带来了前所未有的沉浸式体验。而在实现这种技术的开发过程中&#xff0c;HOOPS技术的运用无疑是一种强大的助力。HOOPS是一种…

项目构建流程

项目构建 目录结构 引入application.properties admin模块就用9090端口 api 模块就用9091端口&#xff0c;其他配置先一样 # 应用服务 WEB 访问端口 server.port9090 server.servlet.context-path/api #session过期时间 60M 一个小时 server.servlet.session.timeoutPT60M #…

Pytorch DataLoader 提高模型训练时的 Volatile Gpu-Util(GPU利用率)

文章目录 1. 查看GPU显存占比和利用率2. Pytorch 提高 GPU 利用率的方法 1. 查看GPU显存占比和利用率 watch -n 0.2 nvidia-smi0.2 代表每隔 0.2 秒刷新一次 GPU 使用情况 通过调整 batch_size 可以使 Memory-Usage&#xff08;GPU显存占比&#xff09;尽可能高&#xff1b;但…

【联邦学习Fate架构讲解】

1.联邦学习的网络架构 P2P网络 网络中的每个成员建议通信 Star网络 网络中的每个成员只需要和中心的exchange交换信息 2. FATE中的架构 2.1 EggRoll分布式计算和存储 Egg Roll分布式计算和存储 存储部分 storage service计算部分 processor管理 egg manager 2.2 FateBoard联…

如何解决node-sass下载用的还是过期的淘宝源?

下载node-sass发现报错过期的证书 把npm的淘宝源换成最新的https://registry.npmmirror.com后发现还是指向了以前的淘宝源&#xff0c;看到一位博主说&#xff0c;单改npm源不够还要改下载node-sass的源&#xff0c;再次搜索另外一位博主提供了命令npm config ls可以使用它来查…

[GPT概念-02] — 预训练、微调和不同的用例应用

GPT: Generative Pretrained Transformer 一、说明 在之前的博客中&#xff0c;我们研究了生成式预训练转换器的整个概述。现在让我们看看关于预训练、微调和不同用例应用的超级重要主题。 二、预备训练 预训练是关于在没有监督或显式监督的情况下&#xff0c;我们从大型未标记…

WPF按钮相关

跟着官网敲的按钮相关的内容,还涉及了wpf很多其他的知识 1.创建基本按钮 <Grid><StackPanel HorizontalAlignment"Left"><Button>Button1</Button><Button>Button2</Button><Button>Button3</Button></StackPan…

开源模型应用落地-安全合规篇-模型输出合规性检测(三)

一、前言 为什么我们需要花大力气对用户输入的内容和模型生成的输出进行合规性检测,一方面是严格遵守各项法规要求,具体如下:互联网信息服务深度合成管理规定https://www.gov.cn/zhengce/zhengceku/2022-12/12/content_5731431.htm ​ 其次,受限于模型本身的一些缺陷,…

目标检测——PP-YOLO算法解读

PP-YOLO系列&#xff0c;均是基于百度自研PaddlePaddle深度学习框架发布的算法&#xff0c;2020年基于YOLOv3改进发布PP-YOLO&#xff0c;2021年发布PP-YOLOv2和移动端检测算法PP-PicoDet&#xff0c;2022年发布PP-YOLOE和PP-YOLOE-R。由于均是一个系列&#xff0c;所以放一起解…

大数据技术学习笔记(十三)—— HBase

目录 1 Hbase 概述1.1 Hbase 定义1.2 HBase 数据模型1.2.1 HBase 逻辑结构1.2.2 HBase 物理存储结构1.2.3 数据模型 1.3 HBase 基本架构 2 HBase Shell 操作2.1 基本操作2.2 namespace 操作2.3 表操作 3 HBase 原理深入3.1 RegionServer 架构3.2 HBase 写流程3.3 MemStore Flus…

华为中心AP 配置入侵防御实验

配置入侵防御示例 组网图形 图1 入侵防御组网图 组网需求配置思路操作步骤中心AP的配置文件 组网需求 如图1所示&#xff0c;某企业部署了WLAN网络&#xff0c;内网用户可以访问Internet的Web服务器。现需要在中心AP上配置入侵防御功能&#xff0c;具体要求如下&#xff1a; 保…

python基于django的高校迎新系统 flask新生报到系统

系统的登录界面和业务逻辑简洁明了&#xff0c;采用一般的界面窗口来登录界面,整个系统更加人性化&#xff0c;用户操作更加简洁方便。本系统在操作和管理上比较容易&#xff0c;还具有很好的交互性等特点&#xff0c;在操作上是非常简单的。因此&#xff0c;本系统可以进行设计…

基础知识(读取指定数据/布尔索引/nan/inf)

读取数据 代码 import numpy as np# 文件的路径 us_file_path"./youtube_video_data/US_video_data_numbers.csv" uk_file_path"./youtube_video_data/GB_video_data_numbers.csv"# 读取文件 t1np.loadtxt(us_file_path,delimiter,,dtypeint) t2np.loadt…

【2024.3.19练习】统计子矩阵

题目描述 题目分析 这道题一开始没有思路&#xff0c;使用蛮力枚举的方法时间复杂度为&#xff0c;显然超时。 参考题解后学会了化二维问题为一维问题&#xff0c;先使用的复杂度限制子矩阵的高度&#xff0c;再考虑列&#xff0c;这样就将子矩阵的和问题转变为了连续子序列的…

本地gitlab-runner的创建与注册

引言 之前通过一些方式在本地创建runner&#xff0c;时而会出现一些未知的坑&#xff0c;所以写下本文记录runner可以无坑创建的方式。 以下注册runner到相应仓库的前提是已经在本地安装了gitlab-runner 具体安装方式见官网 本地gitlab-runner安装常用的指令 查看gitlab r…

[Qt学习笔记]QT下获取Halcon图形窗口鼠标事件并执行相应操作

目录 1、背景2、参考信息3、目标4、步骤4.1 Halcon库的配置4.2 读取图像&#xff0c;并实现图像自适应窗体控件大小4.3 主要的图形绘制和贴图操作见如下代码&#xff0c;其中重点为全局函数的创建来实现选择Select、拖拽Drag和尺寸Resize事件响应。 5、总结 1、背景 在视觉项目…
最新文章