【机器学习11】强化学习

1 基本概念

一个机器人在环境中会做各种动作，环境会接收动作，并引起自身状态的变迁，同时给机器人以奖励。机器人的目标就是使用一些策略，做合适的动作，最大化自身的收益。
在这里插入图片描述
整个场景一般可以描述为一个马尔可夫决策过程：
动作：所有可能做出的动作的集合，记作A（可能是无限的）。
状态：所有状态的集合，记作S。
奖励：机器人可能收到的奖励，一般是一个实数，记作r。
时间（t=1,2,3…）：在每个时间点t，机器人会发出一个动作at，收到环境给出的收益rt，同时环境进入到一个新的状态st。
状态转移： S×A→S满足在这里插入图片描述从当前状态到下一状态的转移，只与当前状态以及当前所采取的动作有关。

累积收益：从当前时刻0开始累积收益的计算方法是：在这里插入图片描述
强化学习的核心任务是，学习一个从状态空间S到动作空间A的映射，最大化累积受益。常用的强化学习算法有Q-Learning、策略梯度，以及演员评判家算法（Actor-Critic）等。

2 价值迭代和策略迭代

价值迭代：

在这里插入图片描述
上面的迭代过程实际上运用了贝尔曼方程（Bellman Equation），来对每个位置的价值进行更新：

价值V(s)由两部分组成：

在这里插入图片描述

策略迭代：

策略就是根据当前状态决定该采取什么动作。
如何衡量策略的好坏？这就需要介绍策略评估（Policy Evaluation）。给定一个策略π，我们可以计算出每个状态的期望价值 V(s)。策略迭代可以帮助我们找到更好的策略，即期望价值更高的策略，具体步骤如下：

在这里插入图片描述

3 Q-learning和与Deep Q-learning

Qlearning的本质是，当前状态sj、回馈aj、奖励rj，以及Q函数之间存在关系：
在这里插入图片描述
依据平方差距，可以对Q函数的取值做迭代改进。

在这里插入图片描述

4 策略梯度

包括深度Q-learning在内的大多数强化学习算法，都没有收敛性的保证，而策略梯度（Policy Gradient）则没有这些问题，它可以无差别地处理连续和离散状态空间，同时保证至少收敛到一个局部最优解。
策略梯度的基本思想就是，直接用梯度方法来优化R(θ)。和Q-learning不同的是，策略梯度并不估算Q函数本身，而是利用当前状态直接生成动作at。
设τ为某一次0到T时间所有状态及行动的集合（称作一条轨迹），则R(θ)=E(r(τ))，其中函数r计算了轨迹τ的得分。

在这里插入图片描述
一个简单的算法描述如图：