机器学习:增强式学习Reinforcement learning

在这里插入图片描述

  • 收集有标签数据比较困难的时候
  • 同时也不知道什么答案是比较好的时候
  • 可以考虑使用强化学习
  • 通过互动,机器可以自己知道什么结果是好的,什么结果是坏的

Outline

在这里插入图片描述

什么是RL

在这里插入图片描述

  • Action就是一个function
  • Environment就是告诉这个Action是好的还是坏的

例子 Space invader

在这里插入图片描述

  • 只能左移动,右移动,开火
  • 任务就是杀死外星人
  • 奖励就是分数
  • 终止:杀死所有的外星人,或者自己被外星人杀死
    在这里插入图片描述
  • 找到一个function使得得分总和最大

例子:Play Go

在这里插入图片描述
在这里插入图片描述

  • 下围棋的score只有在游戏结束的时候才有分数,+1, -1, 0
  • 中间时刻是没有得分的

RL和ML关系

在这里插入图片描述

Step1: 未知数的Function

在这里插入图片描述

  • 在RL中,未知数的Function就是Action
  • 输入是网络观察到的
  • 输出是每个动作的反馈
  • 分数就是激励,基于分数去有概率的随机性采取对应的行动,增加多样性

Step2:定义Loss

在这里插入图片描述
在这里插入图片描述

  • 把所有的reward进行累加作为最终分数
  • Loss就是要最大虾该总和分数

Step3:优化器

在这里插入图片描述

  • 给定的随机行为,有随机的反应
  • 如何找到一组参数去使得分数越大越好
  • 类比于GAN,但是Reward和env不能当作是network,是一个黑盒子

Policy Gradient

在这里插入图片描述
如何控制你的action
在这里插入图片描述

  • 希望采用的模型,可以类比一个分类器
  • 希望不采用什么动作的模型,可以使用上面取反
    在这里插入图片描述
  • 使得e1越小越好,使得e2越大越好

收集一些训练数据
在这里插入图片描述
但不一定是只有两种情况,不是二分类问题,可以采用不同的数字表示不同程度的期待
在这里插入图片描述

定义A

版本1

随机的Action得到结果,然后进行评价正负
在这里插入图片描述

  • 该版本不是一个好的版本
  • 短视近利的Action,没有长远规划
  • 每个动作都影响后续的动作
  • 奖励延迟,需要牺牲短期利益获得长远利益
    在这里插入图片描述

版本2

在这里插入图片描述

  • 把每个动作之后的分数都加起来作为该动作的分数

版本3

在这里插入图片描述

  • 相邻的动作影响更大一点,越远的距离的动作影响越小

版本4

在这里插入图片描述

  • 需要对分数进行标准化,减掉一个baseline b,使得分数有正有负

Policy Gradient

在这里插入图片描述

  • 收集资料是在epoch循环中
    在这里插入图片描述
    在这里插入图片描述
  • 每次Update之后需要重新收集资料
  • RL训练非常耗时
    同一种行为对于不同的s是好坏是不一样的,是一个连续的。
    在这里插入图片描述
    在这里插入图片描述
  • off-policy可以不用在更新前收集资料了,只需要收集一次
    在这里插入图片描述
    在这里插入图片描述
  • 增加随机性,尝试不同的action

PPO

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/257033.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

01-从JDK源码级别彻底剖析JVM类加载机制

文章目录 类加载运行全过程类加载器和双亲委派机制类加载器初始化过程双亲委派机制为什么要设计双亲委派机制?全盘负责委托机制自定义类加载器 打破双亲委派机制Tomcat打破双亲委派机制Tomcat自定义加载器详解模拟实现Tomcat的JasperLoader热加载 补充:H…

二进制枚举算法

二进制 : 也就是只有0和1的进制表示 ; 二进制枚举算法 一个二进制数 x 可以表示 S 的一个子集,某个二进制位i上为0表示没有选i元素,为1表示选了该元素放入子集,比如13为1101就表示选了0,2,3号元素;对于一个长度为N的序列(也就是包含N个元素)有2^N个子…

建筑模板怎么选?

在建筑领域,选择合适的模板材料对于确保工程质量、提高施工效率和控制成本至关重要。目前,常见的建筑模板主要有钢模板、塑料模板和木模板三种类型,每种都有其独特的优势和局限性。本文将对这些模板类型进行分析,并特别推荐广西生…

沉浸式数字文旅黑科技!用AI数字人升级景区体验

这年头文旅界也太卷了! 在国家文化数字化战略的深入实施下,各地方文旅纷纷打造新型消费场景,以数字文旅提升消费产品的互动性和社交性,增强用户沉浸式体验。 其中,数字人乘着AI大语言模型的东风,被文旅品牌…

【数据结构】使用循环链表结构实现约瑟夫环问题

目录 1.循环链表的定义 2.约瑟夫环问题 3.创建循环链表 4.删除节点操作 5.打印所有节点 6.实现约瑟夫环问题的完整程序代码 🌈嗨!我是Filotimo__🌈。很高兴与大家相识,希望我的博客能对你有所帮助。 💡本文由Filotimo_…

OpenAI 增强安全团队并赋予董事会对危险人工智能的否决权

OpenAI 在扩展其内部安全流程方面的举措以应对有害 AI 的威胁,OpenAI高层推出了一份更新的“准备框架”。OpenAI 的目标是识别、分析和决定如何应对他们正在开发的模型中的“灾难性”风险。他们通过对模型的四个风险类别进行评估,并根据风险级别制定相应…

在Android手机设置中启动ESIM

eSIM测试配置文件仅用于实验室测试。 1.到“设置”->“网络和互联网”->“SIM”,确认没有eSIM配置文件。 2.启动拨号程序,然后按短代码****#3746878#**#*(****#ESIMTEST#**#**) 有一个弹出通知“eSIM测试模式已启用” 3.返…

【JavaScript设计模式】Singleton Pattern

单例是可以被实例化一次的类,并且可以被全局访问。这个实例可以在整个应用程序中共享,这使得singleton非常适合管理应用程序中的全局状态。 首先,让我们看看使用ES2015类的单例是什么样子的。在这个例子中,我们将构建一个Counter…

ASP.NET MVC+EntityFramework图片头像上传

1&#xff0c;先展示一下整体的效果 2&#xff0c;接下来展示用户添加以及上传头像代码、添加用户界面 前端代码如下&#xff1a; <div class"form-group">Html.LabelFor(model > model.img, "头像&#xff1a;", htmlAttributes: new { class &…

【Linux】ip命令使用

ip命令 用于管理与配置网络接口和路由表。 ip命令的安装 ip 命令来自 iproute2 软件包&#xff0c;在 CentOS 7 中默认已安装。 yum install -y iproute 语法 ip [ OPTIONS ] OBJECT { COMMAND | help }ip [ -force ] -batch filename选项及作用 执行令 &#xff1a; ip …

计算机组成原理第4章-(存储器)【上】

存储器分类 对于计算机中存储器的分类&#xff0c;方法有很多&#xff0c;不同的方法之间是独立的&#xff0c;为此我们简单讲述两种分类 方法&#xff1a;“存取方式分类”、“在计算机中作用分类”。 -->按存取方式分类 按存取方式分类可以将存储器分为&#xff1a;“…

水经微图Web新版发布

水经微图Web新版已经上线&#xff0c;在该版本中主要新增了态势箭头标绘、文本要素标注和显示网页气泡等功能。 在本文中&#xff0c;我们将为大家分享新增的功能项&#xff0c;以及原有功能作的一些优化等。 当前版本 当前版本号为&#xff1a;1.4.0-beta 如果你发现该版…

JavaSE 泛型

目录 1 泛型类的定义1.1 为什么需要泛型1.2 泛型的概念1.3 泛型的分类 2 泛型类2.1 泛型类的定义2.2 泛型类的例子2.3 泛型类的实例化2.3.1 实例化语法2.3.2 裸类型(Raw Type) 2.4 泛型类的定义-类型边界2.5 泛型类的使用-通配符(Wildcards)2.5.1 基本概念2.5.2 通配符-上界2.5…

14、Kafka 请求是怎么被处理的

Kafka 请求是怎么被处理的 1、处理请求的 2 种常见方案1.1、顺序处理请求1.2、每个请求使用单独线程处理 2、Kafka 是如何处理请求的&#xff1f;3、控制类请求和数据类请求分离 无论是 Kafka 客户端还是 Broker 端&#xff0c;它们之间的交互都是通过 “请求 / 响应” 的方式完…

Hypervisor Display架构

Hypervisor Display架构部分 1&#xff0c;所有LA侧的APP与显示相关的调用最终都会交由SurfaceFlinger处理 2&#xff0c;SurfaceFlinger会最终调用android.hardware.graphics.composer2.4-service服务 3&#xff0c;android.hardware.graphics.composer2.4-service服务会调用G…

针对企业的泄密,天锐绿盾提出十大解决方案

01 防止公司内部数据泄密 通过动态加解密技术&#xff0c;有效防止公司内部数据泄密。即员工在创建、编辑文档时会被自动加密存放在硬盘上&#xff0c;防止员工故意或由于疏忽而造成泄密或对文件恶意破坏。 管理思路>> ● 不改变员工使用习惯、不改变文件格式、不改变…

APM固件编译和仿真

事情起因 主要想对无人机APM固件进行仿真的算法验证&#xff0c;因实际飞行的过程实际验证太浪费飞机了&#xff0c;所以就先试用仿真对算法进行仿真开发。 一&#xff0c;环境搭建 环境搭建我建议参考官方英文教程&#xff0c;英文教程写的比较全&#xff0c;不懂可以自己使…

科聪控制系统典型应用车型 —— 料箱机器人

料箱机器人即料箱AGV是一种智能化物流搬运设备&#xff0c;它可以代替人力完成出库入库和搬运工作&#xff0c;可根据出入库生产出货需求&#xff0c;将货物从起点运送到终点&#xff0c;自动柔性完成货到人货到点的操作。 提升仓储和物流效率的自动化利器 料箱机器人的投用能…

yolov5单目测距+速度测量+目标跟踪(算法介绍和代码)

要在YOLOv5中添加测距和测速功能&#xff0c;您需要了解以下两个部分的原理&#xff1a; 单目测距算法 单目测距是使用单个摄像头来估计场景中物体的距离。常见的单目测距算法包括基于视差的方法&#xff08;如立体匹配&#xff09;和基于深度学习的方法&#xff08;如神经网…

C语言--字符函数与字符串函数

大家好&#xff0c;我是残念&#xff0c;希望在你看完之后&#xff0c;能对你有所帮助&#xff0c;有什么不足请指正&#xff01;共同学习交流 本文由残念ing 原创CSDN首发&#xff0c;如需要转载请通知 个人主页&#xff1a;残念ing-CSDN博客&#xff0c;欢迎各位→点赞&#…
最新文章