Policy Gradient 算法

2019-12-02 12:00:40 浏览数 (1)

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

本文链接:https://blog.csdn.net/Solo95/article/details/103302108

常见的policy gradient算法,写出来挺简单的,但是有一个复杂的推导过程,这里就略去了。

Vanilla Policy Gradient Algorithm

GtiG_t^iGti​可以是TD estimate、bootsrap,也可以是简单的从t开始的reward。

图示即为实现monototic imporvement

Gti=∑t′=tTrtiG_t^i=sum_{t'=t}^Tau r_t^iGti​=∑t′=tT​rti​ A^ti=Gti−b(st)hat{A}_t^i=G_t^i-b(s_t)A^ti​=Gti​−b(st​) 上面两行是为了更好地得到梯度的估计,在使用少量数据的情况下,并减少variance。

两部分都很重要,实现的是不一样的东西。

Rti^hat{R_t^i}Rti​^​的计算方式如下:

0 人点赞