强化学习-google football 实验记录

    • google football 实验记录

      1. gru模型和dense模型对比实验

    • 实验场景:5v5(控制蓝方一名激活球员),跳4帧,即每个动作执行4次

    • 实验点:

      • 修复dense奖励后智能体训练效果能否符合预期

    • 实验目的:

      • 对比gru 长度为16 和 dense net作为aggrator的区别

    • 实验效果

      • reward

    • 敌方得分


      • 我方得分


    • 实验结论:

      • 相较于长度16的gru,dense net 作 聚合器有益于快速收敛。

      • gru聚合器学到了持球奖励,所以在双方奖励初步收敛后,gru能凭借持球奖励再一步将总奖励提到0以上(另一方面说明持球奖励设置太大了)

      • 两种方法都很难学会进球,进球的次数太少。

    • 2 课程学习

      2.1 禁区内

    • 实验场景:5v5(控制蓝方四名非守门员成员),跳4帧,在简单课程:禁区射门,开始

    • 实验目的:

      • 测试简单课程能否教会智能体智能体在禁区中射门

    • 实验效果

      • 奖励

      • 我方得分:

      • 敌方得分:

      • 实验结论

        • 课程学习中,将我方球员和足球放置于禁区内,有助于智能体学会在禁区内射门动作

        • 只进行这一种课程学习无法教会智能体从后场带球突破前场然后射门的策略,所以进球数始终无限接近于一(禁区内射门)而无法超过一

      2.2前场禁区外-对战简单规则

      • 实验场景:5v5(控制蓝方四名非守门员成员),跳4帧,在进阶课程:我方全部球员处于敌方禁区外的前场,敌方所有球员处于我方的后场,足球位于我方球员附近。敌方体力0.05,我方体力1.00

      • 实验配置:加载经过简单禁区内射门课程学习智能体的模型

      • 实验目的:试验进阶课程能否教会智能体从后场带球突破至前场禁区然后射门的策略

      • 实验效果:

        • 奖励:

        • 得分

        • 胜率

      • 实验结论

        • 进阶课程学习中,将我方球员和足球放置于前场,有助于智能体学会突破防守,进入禁区,然后射门,在敌方体力0.05,我方体力1.00的设置下每场净进球最高为8,胜率接近1

        • 进阶课程中,由于我方全部处于越位位置,传球会导致越位,使得训练后智能体在突破过程中倾向于单刀直入,很少有传球动作。并且进攻路线比较单一,总是从中路的一条直线突破。在敌方持球阶段,防御能力很弱。

    • 2.3前场禁区外-对战困难规则

    • 实验场景:5v5(控制蓝方四名非守门员成员),跳4帧,在进阶课程3.7中:敌我双方球员均处于各自半场,我方球员更接近球场中心,足球位于球场中心。敌方体力1.00,我方体力1.00;在进阶课程4.8中:敌我双方球员均处于对称位置,足球位于球场中心。敌方体力1.00,我方体力0.11

    • 实验配置:加载经过简单禁区内射门课程学习智能体的模型

    • 实验目的:试验进阶课程能否教会智能体从后场带球突破至前场禁区然后射门的策略

    • 实验效果:

      • 奖励:

      • 得分

      • 胜率

    • 实验结论

    • 通过进阶课程37-48,可以使智能体在较公平和较劣势情况下学习到战胜规则智能体的策略。

    • 由于课程的设置,智能体很少有传球动作。并且进攻路线比较单一,总是从中路的一条直线突破。在敌方持球阶段,防御能力很弱。

    • Naive Selfplay

      单一模型,纯selfplay

    • 实验场景:5v5(控制蓝方四名非守门员成员),跳4帧,左右双方均为强化学习智能体,采用同一模型、右边队伍以0.01的概率为 规则智能体,

    • 实验配置:加载经过进阶课程学习36智能体的模型

    • 实验目的:测试selfplay训练方法对模型攻防性能的影响

    • 实验效果:

      • 奖励:

      • 得分:

      • 胜率

    • 实验结论

    • 根据对战视频,selfplay可以增加智能体进攻策略的多样性,智能体不会拘泥一种策略,而是从多个方向向禁区突破,并且具有较低水平的防守能力,偶尔会截断传球,成功铲球等

    • selfplay 后的智能体对战规则的胜率降低,不能像在课程学习中那样,降低规则的进球数,说明其对自身模型产生较大的过拟合,参考文献 Bansal, Trapit et al. “Emergent Complexity via Multi-Agent Competition.” ArXiv abs/1710.03748 (2017): n. pag. 中也有指出naive selfplay的这种过拟合现象,文章通过抽取不同时期的model缓解这种现象。

    • 单一模型,selfplay和规则混合训练

    • 实验场景:5v5(控制蓝方四名非守门员成员),跳4帧,左右双方均为强化学习智能体,采用同一模型、右边队伍分别以0.5、 0.75 的概率为 规则智能体,

    • 实验配置:加载经过进阶课程学习36智能体的模型

    • 实验目的:测试selfplay和规则混合训练方法对模型攻防性能的影响,观察不同占比的规则对手,对智能体训练会产生什么影响

    • 实验结果:

      • 奖励:

      • 得分

      • 胜率

      • value loss

      • policy loss

    • 实验结论

    • 面对混合对手,智能体策略迅速保守化,具体表现为自己得分下降同时让对手的得分下降,视频中效果为将球运到自己半场后不再进攻,这一现象不会因为规则占比的多少而出现明显不同。考虑造成这种现象的原因可能有以下两种:1. 由于规则和selfplay的策略差别较大,造成智能体进攻策略时,价值函数和策略函数更新过程中的方差大,因而偏向保守策略。 2. 单模型的selfplay模型更新有问题,一些右队的数据应该被抛弃的数据、影响了模型更新

最终效果图,左队为强化学习智能体

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/363560.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

机器学习算法决策树

决策树的介绍 决策树是一种常见的分类模型,在金融风控、医疗辅助诊断等诸多行业具有较为广泛的应用。决策树的核心思想是基于树结构对数据进行划分,这种思想是人类处理问题时的本能方法。例如在婚恋市场中,女方通常会先询问男方是否有房产&a…

Outlook技巧:如何插入可以用指定浏览器打开的链接

Outlook中的链接,有时直接点击无法打开,找本地Edge才能打开。如何让Url能够指定打开的浏览器呢? 插入链接时,直接加上前缀Microsoft-edge即可。 操作步骤: 编辑邮件界面,菜单选择插入-》链接 在链接地址…

如何使用淘宝客?

1.定义:是一种按成交计费的推广工具,由淘宝客帮助商家推广商品,买家通过推广链接进入完成交易后,商家按照设置佣金支付给淘宝客费用。 2.优势: (1)展示、点击全免费。 (2&#xf…

Redis核心技术与实战【学习笔记】 - 10.浅谈CPU架构对Redis性能的影响

概述 可能很多人都认为 Redis 和 CPU 的关系简单,Redis 的线程在 CPU 上运行,CPU 快 Reids 处理请求的速度也很快。 其实,这种认知是片面的,CPU 的多核架构及多 CPU 结构,也会影响到 Redis 的性能。如果不了解 CPU 对…

嵌入式学习第十五天

内存管理: 1.malloc void *malloc(size_t size); 功能: 申请堆区空间 参数: size:申请堆区空间的大小 返回值: 返回获得的空间的首地址 失败返回NULL 2.free void free(void *ptr); 功能: 释放堆区空间 注…

【芯片设计- RTL 数字逻辑设计入门 番外篇 8.1 -- memory repair 详细介绍】

文章目录 memory repair 详细介绍Memory Repair 方法Memory Repair 过程举例memory repair 详细介绍 SoC (System on Chip) 的 Memory Repair 是一种技术,用于检测和修复内存中的损坏单元。由于SoC内部集成了大量的逻辑和存储单元,包括RAM(随机访问存储器)、ROM(只读存储…

使用 vite 配置请求代理

介绍vite vue官方提供的前端构建工具。 由两个部分组成 开发服务器:基于ES模块提供丰富的内建功能 构建指令:使用 Rollup 打包代码,提供预设配置 Rollup: Rollup 是一个 JavaScript 模块打包器,它可以将多个模块打包成…

UG949 适用于 FPGA 和 SoC 的UltraFast 设计方法指南

使用RTL创建设计 定义RTL设计层级 模块边界输出进行寄存 即寄存器输出,打一拍 IP的使用 AMBA AXI

BPF 管理器 bpfman 简介

1. 背景 Fedora 40 提案建议将 bpfman 作为默认的程序管理器 ,开源项目 bpfman 可以实现对 eBPF 运行状态的深入了解,从而实现更轻松地管理 eBPF 程序(包括加载、卸载、运行状态查看等)。该提案还需要 Fedora 工程和指导委员会 (…

AIGC专题:从0到1精益创新 AIGC产品应用及商业化落地实践

今天分享的是AIGC系列深度研究报告:《AIGC专题:从0到1精益创新 AIGC产品应用及商业化落地实践》。 (报告出品方:易点天下) 报告共计:38页 企业内部增效-AI知识库 企业内部IT、运维、人力资源、行政等等日…

Unity 模板方法模式(实例详解)

文章目录 简介示例1:游戏关卡流程示例2:测试试卷类示例3:游戏场景构建流程示例4:游戏动画序列示例5:游戏对象初始化过程 简介 Unity中的模板方法模式是一种行为设计模式,它在父类中定义了一个算法的框架&a…

微软新的内部开发部门发现了第一个 Windows 12 版本

Windows 11 被证明让很多人有点失望,很多 Windows 10 用户认为没有理由升级。 这意味着有大量用户渴望一些大而令人印象深刻的东西——而这正是 Windows 12 所希望的。 无论您是 Windows 10 的忠实拥趸,还是渴望更新、更闪亮的 Windows 11 采用者&#x…

笔记本电脑Win11重装系统教程

在笔记本电脑Win11操作过程中,用户如果遇到很严重的系统问题,就可以重新正常的Win11系统,快速解决Win11系统问题。但是,部分新手用户不知道不知道如何操作才能给Win11笔记本电脑重装系统?以下小编分享笔记本电脑Win11重…

分布式事务(五)——基于本地消息和可靠消息的解决方案

系列目录: 《分布式事务(一)—— 事务的基本概念》 《分布式事务(二)—— CAP和Base理论》 《分布式事务(三)—— 两阶段提交解决方案(2PC)》 《分布式事务&#xff0…

安卓滚动视图ScrollView

<?xml version"1.0" encoding"utf-8"?> <LinearLayout xmlns:android"http://schemas.android.com/apk/res/android"android:layout_width"match_parent"android:layout_height"match_parent"android:orientatio…

mybatisplus-多数据源配置

1. 流程 pom文件yml配置多数据源具体服务添加注解DS(“***”) 1.pom文件 <!--mybatis plus 起步依赖--><dependency><groupId>com.baomidou</groupId><artifactId>mybatis-plus-boot-starter</artifactId><version>3.4.0</vers…

《苍穹外卖》电商实战项目实操笔记系列(P123~P184)【下】

史上最完整的《苍穹外卖》项目实操笔记系列【下篇】&#xff0c;跟视频的每一P对应&#xff0c;全系列10万字&#xff0c;涵盖详细步骤与问题的解决方案。如果你操作到某一步卡壳&#xff0c;参考这篇&#xff0c;相信会带给你极大启发。 上篇&#xff1a;P1~P65《苍穹外卖》项…

JavaWeb前端——HTML/CSS

HTML/CSS概述 HTML&#xff1a;学习标签&#xff0c;CSS&#xff1a;学习样式 HTML 1. 不区分大小写。 2. 属性可以使用单引号/双引号 3. 在记事本/编辑器中编写html语言&#xff0c;通过浏览器解析渲染语言 4. 语法结构松散&#xff08;编写时要尽量严谨&#xff09; VSc…

Vulnhub-RIPPER: 1渗透

文章目录 一、前言1、靶机ip配置2、渗透目标3、渗透概括 开始实战一、信息获取二、rips的使用三、获取密码文件四、日志审查五、提权 一、前言 由于在做靶机的时候&#xff0c;涉及到的渗透思路是非常的广泛&#xff0c;所以在写文章的时候都是挑重点来写&#xff0c;尽量的不饶…

Ant Design Mini - 支付宝小程序官方推出的免费开源 UI 组件库,新增支持微信小程序,实用性大大增加

支付宝小程序官方的 UI 组件库开始支持运行在微信小程序上了&#xff0c;如果要开发这两家小程序平台&#xff0c;这套组件很合适。 Ant Design Mini 也简称 antd-mini &#xff0c;是一套运行在支付宝小程序的 UI 组件库&#xff0c;UI 设计遵循 Ant Design 规范&#xff0c;…
最新文章