状态价值函数:
表征当前状态的价值。
比如在下围棋时,当前局势的获胜几率。
马尔科夫决策过程:
未来仅依赖于当前状态而与历史状态无关。
即过去状态与未来状态条件独立。
衰减系数γ:
用来对未来的奖励做惩罚;
未来的100元奖励不如当前的100元奖励,未来的奖励会随着时间推移而消失。数学上,有了衰减系数,无需在乎将来太远的奖励(都被指数衰减掉了);
使用衰减系数,我们无需担心状态转移图存在无限循环;
未来的奖励不会提供直接收益;
目标策略函数:
行为的概率分布*行为价值函数 Q
贝尔曼方程:
将价值函数分解为=直接奖励+衰减后的未来奖励
动态规划:
如果概率P或者回报R完全已知,则可以用动态规划迭代地对问题进行求解。如果模型完全已知,则基于贝尔曼方程,可以直接用动态规划计算价值函数,并进行策略改进。包括策略评估、策略改进和策略迭代。
蒙特卡洛方法:
不需要对模型进行建模,但要求完整的一轮样本。通过完整一轮样本(过程)S1,A1,R2,…,St 来求经验回报。并且所有轮必须到达终态。
估计回报等于所有回报在每一轮衰减后的平均值和
时间差分方法:
不需要模型,也不需要完整的样本,而是从每轮的经验中学习。是对蒙特卡洛方法的改进,可以从不完整的一轮数据中学习,因而无须使任务执行到终止态。因此也叫提升法bootstrapping。主要是通过value estimation更新价值函数
MC与TD的对比:
MC方法依赖实际的奖励和完整的回报来更新目标。
TD方法依据现有估计更新目标。因此,也称提升法。
sarsa:
价值函数,基于TD的更新方法,on-policy方法
Q-Learning
也是基于TD的更新方法,off-policy。
sarse和Q-Learning区别:Sarsa通过一个序列:S,A,R,S,A更新Q值。
Q-Learning不使用当前策略选择下一步的行为At+1,,而是使用当前Q函数最优值来预测Q*,而对应Q的行为a并不重要,而且在Q-learing的下一步中本次的行为a*也不一定会被执行。
Deep Q-Network
由于Q-learning中用表格记录所有的Q会产生一个非常大的表格,因此使用深度学习模型来做替代,进行函数拟合。
存在的问题:当使用非线性Q值函数拟合以及bootstrapping时,Q-Learning会不稳定,并且难以收敛。
在Mnih等人的努力下,大幅改善和稳定了Q-learning的训练,使用了两个创新机制:经验回放和阶段性更新目标。
基于策略的方法
策略梯度:策略梯度算法直接学习策略本身,通过参数sita,定义奖励函数为期望回报,算法的目标是最大化奖励函数。使用策略提升算法,可以找到返回最大回报对应的最优参数sita。基于策略的方法在连续空间中比基于价值的方法要更优,因为连续空间需要对无限个状态和行为进行值估计,造成计算需求大幅增加。
策略梯度理论:
是通过对sita扰动一个微小的值完成梯度计算,甚至可以在J(sita)不可导时使用。推理过程在sutton&barto的13.1章,这个结果称为策略梯度定理。
REINFORCE:
也被称为蒙特卡洛梯度,依赖MC方法得到的回报估计值Qpi(s,a)来更新梯度参数。常用的REINFORECE变体是从收益Gt中减去一个基线值来降低梯度估计的方差。(常用的基线值是状态价值函数,A(s,a)=Q(s,a)-V(s))(来替换Q值)
Actor-Critic
叠加学习策略和学习价值函数,从而有了AC算法。
Critic用于更新价值函数参数w(既可以是行为价值函数,也可以是状态价值函数)
Actor用于更新策略函数参数sita
A3C:
是一个经典的策略梯度算法,特点是并行训练,提升算法性能。
强化学习的难点:
我们实际在应用强化学习去训练时,经常会遇到各类问题。虽然强化学习很强大,但是有时候很多问题很棘手无从下手。
Reward的设置:如何去设置Reward函数,如何将环境的反馈量化是一个非常棘手的问题。比如在AlphaGo里面,如何去衡量每一步棋下的“好”与“坏”,并且最终量化,这是一个非常棘手的问题。有些场景下的Reward函数是很难设置的。采样训练耗时过长,实际工业届应用难:强化学习需要对每一个State下的每一个Action都要尽量探索到,然后进行学习。实际应用时,部分场景这是一个十分庞大的数字,对于训练时长,算力开销是十分庞大的。很多时候使用其他的算法也会获得同样的效果,而训练时长,算力开销节约很多。强化学习的上限很高,但如果训练不到位,很多时候下限特别低。容易陷入局部最优:部分场景中Agent采取的行动可能是当前局部最优,而不是全局最优。网上经常有人截图爆出打游戏碰到了王者荣耀AI,明明此时推塔或者推水晶是最合理的行为,但是AI却去打小兵,因为AI采取的是一个局部最优的行为。再合理的Reward函数设置都可能陷入局部最优中。
链接:https://zhuanlan.zhihu.com/p/527073751