如何让人模仿猎豹走路?Stuart Russell提出基于最优传输的跨域模仿学习

2021-11-23 15:03:45 浏览数 (1)

Stuart Russell等人使用Gromov-Wasserstein距离来对齐和比较智能体不同空间之间的状态,从而使人模仿猎豹走路成为可能。

编译 | 杏花

编辑 | 青暮

跨域模仿学习研究的是如何利用一个智能体的专家演示来训练一个具有不同实施方式或形态的模仿智能体。比较专家智能体和模仿智能体之间的轨迹和平稳分布是具有挑战性的,因为它们生活在不同的系统中,甚至可能不具有相同的维数。

近日,来自加州大学伯克利分校人工智能实验室、伦敦大学学院和 Facebook AI 的研究人员在一篇论文 Cross-Domain Imitiation Learning via Optimal Transport 中提出了 Gromov-Wasserstein 模仿学习(GWIL),这是一种跨域模仿的方法,使用 Gromov-Wasserstein 距离来对齐和比较智能体不同空间之间的状态。

论文地址:https://arxiv.org/pdf/2110.03684v1.pdf

1

研究背景

强化学习(RL)已经在许多领域取得了令人惊艳的成果。然而,当前RL的有效性与训练奖励的质量密切相关。但是,对于许多现实世界的任务来说,设计密集且信息丰富的奖励需要大量的工程工作。为了减轻这种工作量,模仿学习(IL)建议直接从专家演示中学习。

但是,当前大多数的 IL 方法仅可以应用于最简单的设置,在这种设置中,专家和智能体共享相同的实施和转换动态,它们生活在相同的状态和动作空间。尤其是这些方法需要来自智能体域的专家演示。

因此,论文的研究人员重新考虑了 IL 的效用,因为它似乎只是将问题从设计信息性奖励迁移到提供专家演示,而不是解决问题。然而,如果放宽当前 IL 方法的约束设置,那么真正减轻工程量的自然模仿场景就会出现。事实上,不需要相同的动力学就能使智能体模仿不同形态的人类和机器人,从而广泛扩大 IL 的适用性,并减轻对域内专家演示的需求。

这种专家演示来自另一个域的宽松设置已成为更具现实假设意义的新兴领域,被称为跨域模仿学习。这些工作的一个共同策略是学习专家域和智能体域之间的映射。为此,它们需要访问智能体任务,在这些任务中,专家和智能体都在各自的域中发挥最优作用。在一定的结构假设下,该映射能够在保持最优性的前提下,将专家域内的轨迹转化为智能体域内的轨迹。虽然这些方法确实放宽了 IL 的典型设置,但对代理任务的要求严重限制了跨域 IL 的适用性。例如,它排除了模仿以前从未见过的专家以及转移到新机器人的可能性。

本篇论文中,研究人员放宽了跨域 IL 的假设,提出了一个不需要访问智能体任务的基准和方法。为此,研究人员脱离了先前工作的观点,将跨域 IL 形式化为最优传输问题,提出了一种Gromov-Wasserstein模仿学习方法(GWIL),该方法使用 Gromov-Wasserstein 距离来求解基准。研究者们论文里正式描述了 GWIL 保持最优性的场景,揭示了其可能性和局限性。实验表明,在非平凡连续控制设置中,GWIL通过一个单一的演示从另一个域学习最优行为,而不需要任何智能体任务。

2

相关工作

模仿学习。IL 的早期研究方法是行为克隆,这相当于通过监督学习训练分类器或回归器来复制专家的演示。另一种关键方法是逆强化学习,它旨在学习一个奖励函数,在该奖励函数下观察到的演示是最优的,然后可以通过 RL 来训练智能体。

为了跳过学习专家奖励函数,Ho & Ermon 证明了 RL 是占用度量匹配问题的对偶,并提出了一个对抗性目标,该目标的优化近似恢复专家的状态-动作占用度量,以及使用生成式对抗网络的实用算法。虽然最近的一些工作旨在改进该算法相对于由极大极小优化引起的训练不稳定性,Primal Wasserstein模仿学习(PWIL)和 Sinkhorn 模仿学习(SIL)将 IL视为占用措施之间的最优传输问题,以完全消除极大极小目标,并在样本效率方面优于对抗性方法。

还有其他研究人员将模仿学习扩展到复杂的类人运动和非琐碎设置中的游戏行为。从 Wasserstein 到 Gromov-Wasserstein,该论文工作是对 Dadashi 等人以及 Papagiannis 和 Li 的延伸,从而超越了专家和模仿者在同一域中的限制,并进入了生活在不同空间中的智能体之间的跨域设置。

跨域和形态的迁移学习。在 RL 中,不同域之间传递知识的工作通常会学习状态空间和动作空间之间的映射。Ammar 等人使用无监督流形对齐,在具有相似局部几何形状但假定可以获得手工制作特征的状态之间找到线性映射。最近在跨视点迁移学习和实施例不匹配方面的工作学习了不需要手工特性的状态映射,但假设可以从两个领域获得成对和时间对齐的演示。

此外,Kim 等人和 Raychaudhuri 等人提出了从未配对和未对齐任务中学习状态映射的方法。所有这些方法都需要智能体任务,即来自两个域的一组专家演示,这限制了这些方法在现实世界中的适用性。Stadie等人提出将对抗学习和域混淆结合起来,在不需要智能体任务的情况下在智能体域学习策略,但他们的方法仅适用于小视点不匹配的情况。Zakka等人采用目标驱动的观点,试图模拟任务进程,而不是匹配细粒度的结构细节,以便在物理机器人之间转换。

相比之下,这篇论文的方法不依赖于学习智能体之间的显式跨域潜在空间,也不依赖于智能体任务。GromovWasserstein 距离使研究人员能够在没有共享空间的情况下直接比较不同的空间。现有基准测试任务假设可以访问来自两个智能体的一组演示,而这篇论文中的实验仅假设可以访问专家演示。

图注:等距策略在平稳分布的状态-动作空间内具有相同的成对距离。在欧几里得空间中,等距变换保留了这些成对距离并包括旋转、平移和反射。

图注:Gromov-Wasserstein 距离使我们能够比较具有不同动态和状态-动作空间的两个智能体的平稳的状态-动作分布。我们将其用作跨域模仿学习的伪奖励。

图注:给定专家域(a)中的单个专家轨迹,GWIL 在没有任何外部奖励的情况下恢复智能体域(b)中的最优策略。绿点表示初始状态位置,当智能体达到红色方块表示的目标时,事件结束。

3

实验结果

论文的研究人员提出了一个由 3 个任务组成的跨域 IL 方法的基准集,旨在回答以下问题:

1. 当智能体域是专家域的刚性变换时,GWIL能否恢复最优行为?这是可以的,论文的作者们用迷宫证明了这一点。

2. 当智能体的状态和行动空间与专家不同时,GWIL能否恢复最优行为?这也是可以的,本篇论文中,作者们展示了倒立摆(cartpole)和钟摆(pendulum)之间轻微不同的状态-动作空间以及步行者(walker)和猎豹(cheetah)之间显著不同的空间。

为了回答这两个问题,研究人员使用了在 Mujoco 和 DeepMind 控制套件中实现的模拟连续控制任务。该学习策略的视频可在论文的项目网站上访问。在所有设置中,作者在dE和dA的专家和智能体空间中使用欧几里得度量。

学习策略地址:https://arnaudfickinger.github.io/gwil/

图注:给定钟摆域(上图)中的单个专家轨迹,GWIL 在没有任何外部奖励的情况下恢复智能体域(倒立摆,下图)中的最优行为。

图注:给定猎豹域(上图)中的单个专家轨迹,GWIL 恢复智能体域(步行者)中最优策略等距类的两个元素,向前移动是最优的(中间),向后移动是次优的(下图)。有趣的是,由此产生的步行者的行为就像一只猎豹。

0 人点赞