重磅教程 | DeepMind 基于模型的强化学习(附279页PPT)

2022-03-31 21:34:18 浏览数 (1)

本教程是Google DeepMind 研究人员在 ICML 2020 做的基于模型的强化学习教程,作者为 Igor Mordatch and Jessica Hamrick,教程链接为 https://sites.google.com/view/mbrl-tutorial 。

摘要

本教程对基于模型的强化学习(MBRL)领域进行了广泛的概述,特别强调了深层次的方法。MBRL方法利用一个环境模型来做出决策,而不是把环境当作一个黑盒子来处理,它提供了超越无模型RL的独特机遇和挑战。我们讨论了学习转移模型和奖励模型的方法,这些模型可以有效地用来做出更好的决策,理解规划和学习之间的关系。我们还强调了在典型的RL环境之外可以利用世界模型的方式,以及在设计未来的MBRL系统时,可以从人类认知中获得什么样的见解。

目标

近年来,强化学习领域取得了令人瞩目的成果,但主要集中在无模型(model-free)方法上。然而,社区认识到纯无模型方法的局限性,从高样本复杂度、抽样不安全结果的需要到稳定性和再现性问题。相比之下,尽管基于模型的方法在机器人、工程、认知和神经科学等领域有很大的影响力,但在机器学习领域,基于模型的方法还没有得到充分的研究(但发展很快)。它们提供了一系列独特的优势和挑战以及互补的数学工具。本教程的目的是使基于模型的方法更容易被机器学习社区认可和访问。考虑到最近成功地应用了基于模型的规划,如AlphaGo,我们认为有必要及时全面地了解这一主题。在本教程结束时,学员应获得:

  • 数学背景阅读并跟进相关文献。
  • 对轻量级的算法有直观的了解,并可以使用它们的代码进行实验。
  • 了解应用基于模型的方法所涉及的权衡和挑战。
  • 对可以应用基于模型的推理的问题的多样性的评价。
  • 了解这些方法如何适应强化学习和决策理论的更广泛背景,以及与无模型方法的关系。

目标受众和所需背景

本教程将面向一般机器学习受众,但具体针对以下具有特定学习目标的群体:

  • 强化学习的研究人员和实践者,从事无模型方法的工作,并希望获得一套新的技术和背景,以补充或解决他们目前面临的挑战。
  • 有监督或无监督的学习研究者,希望了解他们的工作如何适用于强化学习环境。
  • 认知科学的研究人员可能熟悉该主题的核心思想,但希望了解在复杂的高维环境中实用的算法和实现指南。
  • 机器人研究人员和实践者熟悉基于模型的控制,但正在寻找背景和建议,如何将他们与学习方法结合起来。

熟悉基本的监督学习方法,熟悉强化学习公式和无模型方法是有益的,但不是必需的。

教程预览

0 人点赞