加州大学伯克利分校研究人员推出无监督强化学习基准 (URLB)

2021-12-29 15:25:04 浏览数 (1)

强化学习 (RL) 是一种强大的人工智能范式,用于处理各种问题,包括自动驾驶汽车控制、数字助理和资源分配等。然而即使是当今最好的 RL 代理也很窄。目前大部分 RL 算法只能解决他们所训练的单一工作,没有跨任务或跨域泛化能力。

当今 RL 系统的狭隘性造成了意想不到的后果,使当今的 RL 代理的数据效率极低。代理过度适应特定的外在激励,限制了在 RL 中的泛化能力。

迄今为止,无监督预训练已被证明是通用人工智能系统在语言和视觉方面最有前途的方法。RL 算法动态地影响它们的数据分布,不像视觉和语言模型那样作用于静态数据。表征学习在强化学习中至关重要。但是 RL 独有的无监督困难在于代理如何通过自我监督的目的生成有趣且多样化的数据。

无监督强化学习与监督强化学习非常相似。两者都努力最大化奖励并假设底层环境由马尔可夫决策过程 (MDP) 或部分观察的 MDP 定义。然而受监督的 RL 假设环境以外在奖励的形式提供监督。相比之下无监督 RL 以自我监督任务的形式定义了内在激励。

机器人学习实验室 (RLL) 的一组研究人员一直致力于使无监督强化学习 (RL) 成为开发可泛化 RL 代理的可行选择。为此使用开源 PyTorch 代码为 8 个领先或流行的基线创建并发布了一个无监督的 RL 基准测试。

近年来已经提出了几种无监督的 RL 算法。但由于评估、环境、优化等方面的差异,一直无法客观比较。因此该团队推出了URLB(无监督强化学习基准)工具,该工具可为无监督 RL 算法提供定义的评估过程、域、下游任务和优化。

URLB 将训练分为两个阶段:

  • 无监督的预训练阶段
  • 有监督的微调阶段。

在初始版本中,有 3 个域,每个域有 4 个任务,用于评估 12 个下游任务。

大多数无监督 RL 算法可以分为三种类型:

  • 基于知识:最大化预测模型的预测误差或不确定性
  • 基于数据:最大化观察数据的多样性
  • 基于能力:最大化状态和一些潜在向量(通常称为“技能”或“任务”向量)之间的互信息。

以前使用几种优化算法来实现这些算法。因此比较无监督 RL 算法已被证明是困难的。该团队在他们的实现中标准化了优化技术,因此自我监督的目标是不同基线之间的唯一区别。

在基于 DeepMind 控制套件的域上,该团队已经实现并发布了八种主要算法的代码,这些算法支持基于状态和基于像素的观察。

基于对现有方法的基准测试,还强调了许多未来有趣的研究方向。例如基于能力的探索在整体上不如基于数据和知识的探索,这是一个引人入胜的研究领域。

论文:

https://openreview.net/pdf?id=lwrPkQP_is

Github:

https://github.com/rll-research/url_benchmark

参考:

https://bair.berkeley.edu/blog/2021/12/15/unsupervised-rl/

0 人点赞