前言
策略近似及其优点
Policy Approximation and its Advantages
策略梯度理论
The Policy Gradient Theorem
REINFORCE:蒙特卡洛策略梯度
Monte Carlo Policy Gradient
实战演练
short-corridor gridworld
代码编写
小结
作为一个随机梯度方法,REINFORCE法有一个良好的理论收敛性质。通过构造可以使得期望更新的方向和评估函数梯度方向一致,这就保证了对于足够小的参数α,算法一定能够收敛到一个局部最优,但是MC形式的REINFORCE方法会带来较大的方差和较慢的学习速度。