Efficient Deep Reinforcement Learning via Adaptive Policy Transfer
- 作者:Tianpei Yang、Jianye Hao、Zhaopeng Meng 等
- 论文链接:https://arxiv.org/pdf/2002.08037.pdf
摘要:通过利用过去学得的相关任务策略的先验知识,迁移学习(Transfer Learning, TL)在加速强化学习方面表现出了极大的潜力。现有的迁移方法要么显式地计算任务间的相似度,要么选择合适的源策略为目标任务提供指导性探索。但是,如何利用合适的源策略知识并且隐式地度量相似度,进而直接优化目标策略,这种思路的研究目前是缺失的。
因此,在本文中,来自华为诺亚方舟实验室等机构的研究者提出的新型策略迁移框架(Policy Transfer Framework, PTF)通过利用上述思路来加速强化学习。该框架学习对于目标策略来说何时复用以及复用哪种源策略才能达到最佳效果,以及通过将多策略迁移建模为选择学习问题来确定何时终止这种源策略。
本研究中策略迁移框架(PTF)示意图。
算法 1:PTF-A3C。
两种风格的网格世界(Grid world)W 和 W』。
两种具有连续控制的评估环境。
推荐:实验表明,这种新型策略迁移框架能够显著加速学习过程,并在独立和连续动作空间中的学习效率和最终性能两方面超越了当前 SOTA 策略迁移方法。
end