NeurIPS2022 | 基于 Transformer Attention的联邦强化学习（滑铁卢大学&&含源码）

引言

联邦强化学习的核心问题是如何将来自多个agent的见解聚合为一个。常见的解决方法是将每个agent的模型权重的平均值带入到一个通用模型(FedAvg)中。相反，「本文提出了一种新的联邦学习策略FedFormer，它利用Transformer Attention对来自不同agent模型的嵌入进行上下文聚合」。在此过程中，主要是根据当前agent的环境和学习到的关系来衡量其它agent的贡献，从而实现更有效的联邦学习。

历年NeurIPS论文下载，后台回复：历年NeurIPS

背景介绍

强化学习已成为解决应用中各种问题的工具，例如汽车自动驾驶系统（让汽车在复杂街道环境中学习自动导航）、物联网设备系统。然而，为了让这些系统获得稳健的性能，通常需要大量的训练集。在自动驾驶等安全关键系统的情况下，为应对系统可能面临的许多可能情况，训练集也必须足够多样化。但是达到足够的性能，所需要的数据集的规模和多样性是很难收集的。为解决数据集问题，一种常见的数据收集策略是依赖于众包，其中训练集是从多个agent本地场景子训练任务中收集整理，然后利用该训练集训练通用模型。

然而，「这一众包策略会存在一个问题，那就是隐私」。在自动驾驶的例子中，训练数据由多个agent子训练任务中的敏感图像组成，它们需要通过互联网汇总到一起。这为恶意行为者提供了拦截这些数据的机会。受这一挑战的激励，隐私保护联邦机器学习和联邦强化学习被提出。在这里，不是传输训练观察结果，而是传输局部模型权重。这些模型的权重然后由一个集中的控制器聚合，形成一个新的公共模型，所有这些都不需要看到任何敏感数据。

联合学习中联合agent的主要方法是McMahan等人提出的FedAvg方法。该策略包括根据agent的个数对所有agent的传输模型权重进行加权平均。然而，当应用到强化学习时，这种方法有几个缺点。「在强化学习中，策略和评估网络比较容易出现不稳定，模型参数的平均可能会进一步加剧这种不稳定」。此外，对多个agent的模型权重进行平均往往会限制在不相同的场景中应用。例如在自动驾驶过程中，从探索农村道路的agent获得的知识对于探索城市的agent来说用处不大。尽管如此，来自这两组代理的贡献在FedAvg下仍然是平等的，这可能会产生在两种环境中表现更差的agent。

为了解决这个问题，受自然语言处理最近进展的启发，「本文提出了联邦Transformer(FedFormer)，这是一种基于Transformer编码器模型的新型联邦策略。我们利用Transformer编码器来学习agent之间的上下文关系，而不是取模型权重的平均值。然后，我们利用学习到的关系在推理期间将agent上下文联合在一起」。该方法允许本地agent维持特定于其环境的模型，允许本地探索，同时还根据与当前环境的相关性在上下文中包含来自其他agent的输出。重要的是，可以在不泄露机密元数据(如地理位置数据、健康信息或其他敏感信息)的情况下了解这些关系。此外，我们在每个时间步骤中计算这些关系，允许在整个过程中agent的环境发生变化时进行动态联合。

模型方法

本文FedFormer模型通过对QFunction的修改来调整Soft Actor Critique（SAC），「这里修改标准SAC的目的是使用双Q-Networks来提高模型稳定性」。联邦Q函数的总体架构如下图所示。

其中，给定一个包含N个agent的网络，用N−1个外部编码器网络初始化每个agent的Q网络，每个外部编码器网络代表其他代理和一个本地编码器网络。我们还初始化了一个本地Transformer编码器和一个最终输出解码器网络。每个编码器网络由相同的网络组成，其中每个外部网络都禁用了梯度。

推理过程的第一步是从每个编码器网络为相同的动作观察对生成编码。受 BERT 的启发，首先根据生成该表示的编码器网络将学习嵌入添加到每个编码中。可以使得聚合器网络识别每个编码的来源，以潜在地帮助了解哪些代理已知与当前代理更相关。这里我们包含了一个特殊的CLS嵌入来编码Transformer网络的全局表示。因此，这一阶段的编码E为：

由于每个agent都有自己的Transformer编码器网络，该网络根据agent自己的本地损失函数进行训练，因此[CLS]编码被训练为与该agent的任务相关的全局表示。在反向传播期间，除了外部编码器网络之外，我们还对端到端进行微调。在训练期间，每个agent都会定期将其本地编码器网络广播给其他agent。每个本地更新的网络替换每个其他代理中的相应外部网络。由于每个代理只需将其本地编码器网络的权重传输给其他代理，因此与基于FedAvg的策略相比，网络带宽增加了，但与模型复杂度的增加不成比例。在实践中，由于编码器网络的规模较小，网络带宽可以忽略不计。

实验结果

本文使用MetaWorld MT10(一组具有随机环境配置的10个机器人操作任务)对FedFormer进行了评估，发现本文方法在峰值时比FedAvg的情景效果提高了4.41倍，比非联邦SAC单代理方法提高了2.15倍。伸缩性不降低性能，比单agent SAC更有效，同时仍然遵守联邦学习的隐私约束

论文&&源码

Paper：https://arxiv.org/pdf/2205.13697.pdf

Code：https://github.com/liamhebert/FedFormer

联邦学习强化学习自动驾驶无人驾驶

0 人点赞