强化学习读书笔记(16)| 策略梯度法 Policy Gradient Methods(上)

2019-11-25 23:02:33 浏览数 (3)

前言

策略近似及其优点

Policy Approximation and its Advantages

策略梯度理论

The Policy Gradient Theorem

REINFORCE:蒙特卡洛策略梯度

Monte Carlo Policy Gradient

实战演练

short-corridor gridworld

代码编写

小结

作为一个随机梯度方法,REINFORCE法有一个良好的理论收敛性质。通过构造可以使得期望更新的方向和评估函数梯度方向一致,这就保证了对于足够小的参数α,算法一定能够收敛到一个局部最优,但是MC形式的REINFORCE方法会带来较大的方差和较慢的学习速度。

0 人点赞