PPO(Proximal Policy Optimization)近端策略优化算法

2022-09-02 19:58:33 浏览数 (1)

强化学习可以按照方法学习策略来划分成基于值和基于策略两种。而在深度强化学习领域将深度学习与基于值的Q-Learning算法相结合产生了DQN算法,通过经验回放池与目标网络成功的将深度学习算法引入了强化学习算法。其中最具代表性分别是Q-Learning与Policy Gradient算法,将Q-Learning算法与深度学习相结合产生了Deep Q Network,而后又出现了将两种方式的优势结合在一起的更为优秀Actor Critic,DPG, DDPG,A3C,TRPO,PPO等算法。而本文所采用的是目前效果较好的近端策略优化算法PPO。

PPO算法思想

PPO算法是一种新型的Policy Gradient算法,Policy Gradient算法对步长十分敏感,但是又难以选择合适的步长,在训练过程中新旧策略的的变化差异如果过大则不利于学习。PPO提出了新的目标函数可以再多个训练步骤实现小批量的更新,解决了Policy Gradient算法中步长难以确定的问题。其实TRPO也是为了解决这个思想但是相比于TRPO算法PPO算法更容易求解。

PolicyGradient回顾

重新回顾一下PolicyGradient算法,Policy Gradient不通过误差反向传播,它通过观测信息选出一个行为直接进行反向传播,当然出人意料的是他并没有误差,而是利用reward奖励直接对选择行为的可能性进行增强和减弱,好的行为会被增加下一次被选中的概率,不好的行为会被减弱下次被选中的概率。 策略如下图方式定义,详细公式信息接下来会介绍。

公式推导

PolicyGradient算法原来是On-Policy的,(感谢指正,更正:PPO也是on-policy)。

important sampling不能算是off-policy,PPO里面的 important sampling 采样的过程仍然是在同一个策略生成的样本,并未使用其他策略产生的样本,因此它是on-policy的。而DDPG这种使用其他策略产生的数据来更新另一个策略的方式才是off-policy

  • On-Policy:只与相同的环境下进行交互学习
  • off-Policy:可以与学习自己环境下的经验也可以获得其他环境下的经验

策略τ的回报期望如下nabla R=E_{tau p_{theta}(tau)}left[R(tau) nabla log p_{theta}(tau)right] ,原来是使用pi_theta与环境交互,当theta 更新时就对训练数据重新采样,那要变成off-policy根据之前的经验就需要使用另外一个网络来帮助采样,就像DQN里的targetNet,现在目标是使用pi_{theta^{prime}} 采样来训练theta, theta^{prime} 被固定所以重新使用采样数据。

上图中所示,PolicyGradient是model-free的所以不知道模型的概率,所以只能通过与真实环境数据的分布P(x)中去采样加和平均求期望。但现在我们为了把它变成offpolicy,就不能直接从P(x)中去直接采样。这时候把期望等价写成int f(x) p(x) d x 然后引入新的采样分布q(x)进行变换int f(x) frac{p(x)}{q(x)} q(x) d x ,这时候我们发现这和最大熵模型引入隐含变量的套路有点相似,然后就可以把原来x~p的期望改写成x~q的期望。所以最终可以得到E_{x p}[f(x) p(x)]=E_{x q}left[f(x) frac{p(x)}{q(x)}right]上述推导就是important sample的技巧。在这个式子中其中的frac{p(x)}{q(x)} ​就是important weight。通过这个公式我们也可以想象得到,如果采样的分布p与真实的分布q差得很多,那么肯定会导致两个期望不一致。下图通过举了一个例子来讲解

上图的p(x)与q(x)差异很大左边为负右边为正,当采样次数很少右边采样很多的情况,就会得出与右边为正的错误结果,但是如果在左边也被采样到一个样本时这个这个时候因为frac{p(x)}{q(x)} ​作为权重修正就相当于给左边的样本一个很大的权重,就可以将结果修正为负的。所以这就是 important weight的作用。但是我们也能看出来,采样次数要足够多,万一采样次数少只采到了一边那就凉凉了。 所以有了上述的 Important Sampling的技巧我们就可以将原来的on-policy变成off-policy了。

begin{array}{l} nabla J(theta)=E_{pi_{theta}}left[R(s, a) nabla log pi_{theta}(s, a)right] \ nabla J^{theta^{prime}}(theta)=E_{pi_{theta^{prime}}}left[frac{pi_{theta}(s, a)}{pi_{theta^{prime}}(s, a)} R(s, a) nabla log pi_{theta^{prime}}(s, a)right] end{array}

上文提到我们不希望thetatheta' 的差距过大,所以要想办法约束它。KL散度也叫相对熵,可以用来衡量两个分布之间的差异性。所以最直接的办法,就是对目标函数增加一个约束条件让他的KL散度小于delta 。这个办法其实就TRPO的思想啦~

begin{array}{l} J_{T R P O}^{theta^{prime}}(theta)=E_{pi_{theta^{prime}}}left[frac{pi_{theta}(s, a)}{pi_{theta^{prime}}(s, a)} A^{theta^{prime}}(s, a)right] \ text { s.t. } K Lleft(theta, theta^{prime}right)<delta end{array}

直接求解TRPO这种带约束的问题是十分复杂的,他与PPO算法的效果差不多,但是PPO将KL散度作为惩罚项,更加容易求解。

J_{P P O}^{theta^{prime}}(theta)=E_{pi_{theta^{prime}}}left[frac{pi_{theta}(s, a)}{pi_{theta^{prime}}(s, a)} A^{theta^{prime}}(s, a)right]-beta K Lleft(theta, theta^{prime}right)

另外还有一种PPO2算法效果比PPO要好一些,如下图所示

利用clip函数将其固定在了一定的范围之内,同样也可以起到限制约束theta, theta^{prime} 的作用。

0 人点赞