在非稳态和竞争性环境中通过元学习方法实现持续适应
作者:Maruan Al-Shedivat, Trapit Bansal, Yura Burda等
论文PDF全文下载,公众号回复:20180425
作者简介
Maruan Al-Shedivat,第一作者是CMU大学机器学习学院的一名PhD
主要研究方向:序列决策,多任务学习,深度学习,可解释模型。应用领域涉及医学、自然语言、多智能体系统和通用AI。
曾经就职:OpenAI,技术人员;KAUST(阿布杜拉科技大学),硕士研究生;神经元计算研究院,访问学者;莫斯科大学,本科研究助理
作者个人网址:https://www.cs.cmu.edu/~mshediva/ Github地址:https://github.com/alshedivat
特别说明
本论文是深度学习顶会“无冕之王”之称的ICLR 2018三篇最佳论文之一。本论文重点关注于元学习方向,提出了一种基于梯度的简单元学习算法,适用于动态变化和对抗性的场景,并获得显著高效的适应性智能体。
摘要
非平稳环境中在有限经验下的持续学习和适应能力是通往通用智能路上的重要里程碑。在本论文中,我们将持续适应问题交给了“learning-to-learn”的框架。我们开发了一种简单的基于梯度学习的元学习算法,适用于动态变化和对抗场景下的适应。另外,我们设计了一种新的多智能体竞争环境,RoboSumo,定义了迭代调整环境来测试多种持续学习情况。我们证明了在小样本情况下,元学习在实现更有效的调整。方面显著优于反应式的基准。我们的试验使用了一种流行的智能体进行学习和竞争,元学习是效果最佳的。
文章结构
精华内容
强化学习目前研究主要集中于平稳环境。真实情况通常是非平稳环境。非平稳环境打破了很多标准假设,需要智能体持续地适应能力。传统平稳环境的强化学习方法需要对环境的改变进行感知并适应性的调整模型,但实际情况的非平稳环境仅允许有限的交互,导致传统方法很难在这种环境下达到效果。
本文作者将非平稳环境看作是一系列的平稳环境,因此采用了多任务学习的方法,即元学习方法来解决非平稳学习问题。更具体的说,作者提出的基于梯度学习的元学习算法可以预期环境变化并采取相适应的策略。
下面就精华的基于梯度学习的元学习算法部分进行介绍:
(一)核心算法流程
该算法是在前期MAML(未知模型元学习)方法对于小样本情况的成功基础上做的,将该方法在动态环境中进行了拓展。算法流程如下:
左图:训练阶段的元学习流程;右图:执行阶段的适应/调整过程
(二)核心部件从概率角度的重新定义
从概率的角度对MAML算法中的元损失函数、梯度进行了重新定义。
元损失函数:
梯度:
(三)元学习实现持续适应的更新过程
将非平稳环境看作是一系列时间维度上的动态平稳环境。因此我们利用这种连续任务和元学习规则的依赖性,通过更新策略最小化变化环境的交互的总期望损失。即当非平稳环境的任务分布等同于马尔科夫链时,最小化长度为L的马尔科夫链任务的期望损失函数表达为:
一对连续任务的元损失函数定义为:
因此,优化元损失函数等价于将反向传播的时间缩短了任务链延迟的一个单元。重构Ti 1任务的策略参数就变成了以下的过程:
用计算图的形式表达元更新过程如下所示:
策略梯度表达为:
(三)验证环境简要说明
(a)试验中使用的三种智能体,不同之处在于腿的数量、姿态、大腿和膝盖关节的约束
(b)非平稳运动环境,红色腿的力矩通过动态变化因素调节
(c)RoboSumo环境
(四)试验结果简要说明
对比方法,三种基准方法:
1)朴素方法(或没有适应能力的方法)
2)通过RL方法隐性适应
3)通过跟踪进行适应,在执行阶段保持做PPO(最近邻策略优化)
最后,设计了一种对抗场景,1050个智能体,均匀的分配各种不同的方法,经过对抗后胜者生存,败者淘汰,从图中可以看出,经过十次循环之后,基于梯度的元学习方法占据了胜出者的大部分,说明了该方法的优越性。
(五)未来展望
作者在文末提出了后续改进的方向,包括全循环元更新、二次偏微分计算的优化、辅助密集奖励机制的设计等。
求包涵:笔者初学未入门,解读多有似是而非的不当之处,万望诸位大神多多指点多多包涵!有兴趣的小伙伴可以阅读原文寻找灵感啦!