【项目案例】基于强化学习Q-Learning训练“汉诺塔Tower of Hanoi”游戏策略

文章目录

  • 1. 引言
  • 2. 基本要素定义
  • 3. 训练过程
    • 3.1 初始化动作价值函数
    • 3.2 采集完整状态序列
    • 3.3 更新动作估计价值
  • 4. 策略检验


1. 引言

汉诺塔游戏(Tower of Hanoi)是根据一个传说形成的数学问题,小规模汉诺塔问题也常常作为强化学习的入门案例。它的规则是,在游戏台上,有若干根杆子,在第一根杆子上有若干 N ≥ 1 N\geq 1 N1 个穿孔圆盘,圆盘的尺寸由下到上依次变小,需要按如下规则将第一根杆子上的圆盘转移到另一根杆子上:

  1. 每次只能移动一个圆盘;
  2. 在移动圆盘过程中,始终不能将大圆盘叠在较小圆盘的上面。

需要求出一个移动次数最少的方案。

为了方便演示,本文案例中,游戏台只有 N _ p o l e = 3 N\_pole=3 N_pole=3 根杆子,以及总共只有 N = 3 N=3 N=3 个圆盘,分别为大圆盘 L L L,中圆盘 M M M,小圆盘 S S S,根据转移规则可知, 3 3 3 个圆盘在游戏台上的摆放组合一共有 27 27 27 种,从大到小依次选择位置 3 N 3^N 3N,底数 3 3 3 是游戏台上的杆子数 N_pole,指数 3 3 3 是游戏台上的圆盘数 N。当移动后的圆盘布局达到目标状态,则游戏结束。

尽管有数学家得到汉诺塔游戏的最短移动次数计算公式,但是这里我们还是用强化学习进行训练,且对于小规模问题而言,我们能够遍历所有的圆盘布局状态,因此可以在任意的圆盘起始状态,都移动到目标状态。

2. 基本要素定义

与前文《【项目案例】利用强化学习训练“井字棋”下棋策略的详细介绍》类似的是,训练汉诺塔游戏需要对各个状态进行定义,以及通过模拟采样的方式生成完整的状态序列,并不断地迭代更新动作价值函数 Q Q Q,最后更加训练好的 Q Q Q 值表进行动作选择。由于Q-Learning是强化学习的基础值迭代算法,因此在后续内容并不会强调该算法的名称,为的是方便入门读者能更加关注强化学习的逻辑本身。

但仍有一些区别,例如,在井字棋游戏当中,每一轮动作都会使棋盘新增一个棋子,且每个棋盘有唯一的哈希值对应,因此在一个完整的状态序列中,不会出现有重复的状态;但在汉诺塔游戏当中,将某个圆盘从一个杠子上转移到另一个杠子上,接着再将圆盘转移回原来的杠子,这种做法符合游戏规则,使得在状态序列中,出现了多次相同的状态,为了惩罚这种行为,以保证训练的策略不会走“回头路”,需要将每个可以直接相连的状态的动作的即时奖励设为负数,这种显示即时奖励的问题可以通过求解最优动作价值函数来得到最优策略。

将汉诺塔游戏的状态定义为 State 类,每个状态对象都满足汉诺塔的游戏规则,因此对于本文的小规模案例而言,从大圆盘到小圆盘依次堆叠,可以得到 27 27 27 种状态。这里对状态值的表示用三元列表进行表示,例如 [ 1 , 0 , 0 ] [1, 0, 0] [1,0,0],依次表示 L L L 圆盘在 1 1 1 号杠子, M M M S S S 圆盘在 0 0 0 号杠子,这里的直接信息表示圆盘的分配,而同一根杠子上的多个圆盘的顺序,按照游戏规则只能按序排列。因此,判断一个状态是否能移动到另一个状态,需要判断移动的圆盘是否能取出(没有更小的同轴圆盘在顶上),以及是否能放得下(没有更小的同轴圆盘在底下)。这里定义圆盘的名称为 symbol_name = ["L", "M", "S"],对应的值为圆盘在 symbol_name 当中的索引值,即为为 0 ,

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/568057.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Facebook的区块链应用深度分析

去中心化身份验证的意义 在当今数字化社会中,身份验证的重要性不言而喻。对于Facebook这样的大型社交媒体平台来说,确保用户的身份真实性和数据的安全性是至关重要的。传统的中心化身份验证方式存在一定的安全风险和可信性问题,而去中心化身…

Midjourney是什么?Midjourney怎么用?怎么注册Midjourney账号?国内怎么使用Midjourney?多人合租Midjourney拼车

Midjourney是什么 OpenAI发布的ChatGPT4引领了聊天机器人的竞争浪潮,随后谷歌推出了自己的AI聊天机器人Bard,紧接着微软推出了Bing Chat,百度也推出了文心一言,这些聊天机器人的推出,标志着对话式AI技术已经达到了一个…

windows系统下python解释器安装

一. 简介 本文简单学习一下python开发学习中,所使用到的 python解释器的下载安装。后面再学习下载安装python的 IDE开发工具,这里要安装的python的 IDE开发工具为 PyCharm。 二. Windows系统下python解释器与IDE开发工具下载安装 1. python解释器下载…

大型集团企业 怎么实现多区域文件交换?

很多大型集团企业,都会在全国各地,甚至海外,都设立分支机构,还有银行、邮政这类机构,都会在全国各地设立多个支行和网点,所以在日常经营过程中,都会存在多区域文件交换的场景。 大型集团企业在进…

嵌入式Linux八股(三)——计算机基础

三、计算机基础 01.操作系统 01.进程几种状态 02.锁 互斥锁:互斥锁是一种用于线程同步的工具,能够保证同一时刻只有一个线程可以访问共享资源。如果一个线程已经取得了互斥锁,其他尝试获得该锁的线程将会被阻塞,直到第一个线程…

Spring与SpringBoot在配置读取方式上的区别

1. 问题说明 将Springboot项目中自定义的一个扩展工具类移植到Spring框架项目中的时候发现一个问题。在springboot中application.yml中的配置内容可以从Environment中获取,但是在spring中context:placeholder对应的配置文件中的配置却无法从Environment中获取。为了…

Power BI 如何创建页面导航器?(添加目录按钮/切换页面按钮)

Power BI 中页导航是什么? 在Power BI中,页导航(Page Navigation)是指在报告中创建多个页面(页),然后允许用户在这些页面之间进行导航的功能。 如下图所示,页导航的选项和报告中的…

每日两题 / 438. 找到字符串中所有字母异位词 238. 除自身以外数组的乘积(LeetCode热题100)

438. 找到字符串中所有字母异位词 - 力扣&#xff08;LeetCode&#xff09; 记录p串每个字符出现次数 维护与p串等长的滑动窗口&#xff0c;记录其中每个字符的出现次数 每次滑动后将当前次数与p串的次数比较即可 class Solution { public:vector<int> findAnagrams(s…

软件项目经理需要具备这 11 个能力

当前软件开发技术更新换代越来越快&#xff0c;各种项目实施管理思想也日新月异&#xff0c;作为一个软件项目经理&#xff0c;需要具备这 11 种能力&#xff1a; 1. 项目管理能力 了解项目管理的基本原则和方法&#xff0c;包括制定项目计划、资源分配、风险管理、问题解决和…

JAVA:Kettle 强大的开源ETL工具

请关注微信公众号&#xff1a;拾荒的小海螺 1、简述 Kettle&#xff08;Pentaho Data Integration&#xff09;&#xff1a;强大的开源ETL工具Kettle&#xff0c;又称作Pentaho Data Integration&#xff0c;是一款流行的开源ETL&#xff08;Extract, Transform, Load&#x…

【Unity实战】值得关注的Addressable新特性

如果您是最近起的Unity项目且有用到Addressable作为内容管理&#xff0c;你可能需要注意一下1.21.15版本的变化&#xff1a; [1.21.15] - 2023-08-03 Fixed an issue where using binary catalogs causes a crash on Android with ARM7.DownloadDepedenciesAsync no longer l…

基于RT-Thread的智能家居助手

一、项目简介 智能家居助手主要基于RT-Thread开发的&#xff0c;该系统主要分为语音子系统&#xff0c;环境监测子系统&#xff0c;智能控制子系统&#xff0c;智能网关子系统&#xff0c;音乐播放器&#xff0c;云端以及应用软件七大部分。语音子系统可通过语音进行人机交互来…

Spring是如何解决循环依赖的

简介 所谓循环依赖指的是&#xff1a;BeanA对象的创建依赖于BeanB&#xff0c;BeanB对象的创建也依赖于BeanA&#xff0c;这就造成了死循环&#xff0c;如果不做处理的话势必会造成栈溢出。Spring通过提前曝光机制&#xff0c;利用三级缓存解决循环依赖问题。 变量描述single…

[lesson49]多态的概念和意义

多态的概念和意义 函数重写回顾 父类中被重写的函数依然会继承给子类 子类中重写的函数将覆盖父类中的函数 通过作用域分辨符(::)访问父类中的同名成员 多态的概念和意义 面向对象中期望的行为 根据实际的对象类型判断如何调用重写函数父类指针(引用)指向 父类对象则调用…

CentOS配置JDK8环境并安装配置neo4j

1. 工具安装 1. 安装wget yum install -y wget2. 安装vim yum install -y vim-enhanced2. 配置JDK 1. 安装JDK 先到官网下载jdk8的压缩包&#xff0c;点我传送&#xff0c;并将压缩包上传到虚拟机的/usr/local目录下。 cd /usr/local # 进入 /usr/local目录 tar -zxvf jdk-…

裤裤带你一起学C语言内存函数啦!

目录 1.memcpy的使用和模拟实现 2.memmove使用和模拟实现 3.memset函数的使用 4.memcmp函数的使用 内存函数在<string.h>库中&#xff0c;我们使用内存函数必须先引入<string.h>头文件 1.memcpy的使用和模拟实现 memcpy的函数原型如下&#xff1a; void * m…

MLLM | Mini-Gemini: 挖掘多模态视觉语言大模型的潜力

香港中文、SmartMore 论文标题&#xff1a;Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models Code and models are available at https://github.com/dvlab-research/MiniGemini 一、问题提出 通过更高分辨率的图像增加视觉标记的数量可以丰富…

likede 表记录

order微服务 tb_order 表负责记录当前的订单信息 tb_order_collect 表记录当前点位的营收情况 由XXL-JOB通过es进行统计 tb_order_month_collect 表记录一个月供应商的收支情况 通过tb_order_collect 进行统计 production微服务 tb_job 补货警戒值的设置 &#xff08;目前来…

4.23学习总结

一.NIO(一) (一).简介: NIO 是 Java SE 1.4 引入的一组新的 I/O 相关的 API&#xff0c;它提供了非阻塞式 I/O、选择器、通道、缓冲区等新的概念和机制。相比与传统的 I/O 多出的 N 不是单纯的 New&#xff0c;更多的是代表了 Non-blocking 非阻塞&#xff0c;NIO具有更高的并…

路由引入,过滤实验

实验拓补图 实验目的&#xff1a; 1、按照图示配置 IP 地址&#xff0c;R1&#xff0c;R3&#xff0c;R4 loopback口模拟业务网段 2、R1 和 R2 运行 RIPv2,R2&#xff0c;R3和R4运行 OSPF&#xff0c;各自协议内部互通 3、在 RIP 和 oSPF 间配置双向路由引入,要求除 R4 上的…
最新文章