这是对白的第 71 期分享
作者 l 木丰心 出品 l 对白的算法屋
大家好,我是对白。
数据来源于深度强化学习实验室 ,这里针对多智能体强化学习做了二次整理。我会先记录一下,随后慢慢更新。
NIPS 2021 多智能体强化学习概况
提交 9122 篇,接收 2344 篇,大约 26%。
强化学习部分 227 篇,多智能体强化学习部分大约有 25 篇左右。(此处列出了 23 篇,我估计还有我落下的)
- Regularized Softmax Deep Multi-Agent Q-Learning【高估问题】
- RMIX: Learning Risk-Sensitive Policies for Cooperative Reinforcement Learning Agents【Risk Sensitive】
- Celebrating Diversity in Shared Multi-Agent Reinforcement Learning【共性 & 个性】
- Towards Understanding Cooperative Multi-Agent Q-Learning with Value Factorization【值分解】【FQI】
- FACMAC: Factored Multi-Agent Centralized Policy Gradients【策略梯度分解】
- Multi-Agent Reinforcement Learning for Active Voltage Control on Power Distribution Networks【MARL 应用:电压控制】
- Multi-Agent Reinforcement Learning in Stochastic Networked Systems【尚未找到该文章】
- Episodic Multi-agent Reinforcement Learning with Curiosity-driven Exploration【探索问题】
- PettingZoo: Gym for Multi-Agent Reinforcement Learning【MARL 环境设计】
- Believe What You See: Implicit Constraint Approach for Offline Multi-Agent Reinforcement Learning【Offline】
- An Efficient Transfer Learning Framework for Multiagent Reinforcement Learning【迁移学习】
- Settling the Variance of Multi-Agent Policy Gradients【MAPG 方差问题】
- Learning to Ground Multi-Agent Communication with Autoencoders【通信问题】
- Pessimism Meets Invariance: Provably Efficient Offline Mean-Field Multi-Agent RL【大规模智能体】【Offline】
- A Law of Iterated Logarithm for Multi-Agent Reinforcement Learning【随机近似理论分析】
- Learning to Simulate Self-driven Particles System with Coordinated Policy Optimization【MARL 环境设计】【作者在评论区】
- Fair Algorithms for Multi-Agent Multi-Armed Bandits
- Taming Communication and Sample Complexities in Decentralized Policy Evaluation for Cooperative Multi-Agent Reinforcement Learning【策略估计问题】
- Variational Automatic Curriculum Learning for Sparse-Reward Cooperative Multi-Agent Problems
- Dynamic population-based meta-learning for multi-agent communication with natural language
- Exploration-Exploitation in Multi-Agent Competition: Convergence with Bounded Rationality
- Learning Distilled Collaboration Graph for Multi-Agent Perception
- MAP Propagation Algorithm: Faster Learning with a Team of Reinforcement Learning Agents
1. Regularized Softmax Deep Multi-Agent Q-Learning
Author:Ling Pan 等【清华大学 & 牛津大学 Whiteson 组】
- Key Words:【高估问题】
- Abstract:解决高估问题在 Q Learning 中很重要,但是在多智能体下的研究很少。在 QMIX 中其实是会遇到很严重的高估问题,但在现有的研究中并未曾减轻其效果。我们使用了一种新的基于正则化的更新模式来减轻该问题,该方法将会惩罚偏离 baseline 的过大联合值函数。论文同时也证明了它可以稳定学习。论文提出了一个 Softmax 选择器去缓解潜在的高估问题的 bias。本论文的方法(RES-MADRL),可以用于许多的多智能体 Q 学习算法。
2. RMIX: Learning Risk-Sensitive Policies for Cooperative Reinforcement Learning Agents- Author:Wei Qiu 等【南洋理工大学 安波组】
- Key Words:【Risk Sensitive】
- Abstract:当前的基于值多智能体强化学习通过 CTDE 框架优化独立智能体去引导个体的行为习惯。然而,有些问题没有考虑到的。比如说,Risk-neutral(风险中性)问题,由于奖励的随机性和环境的不确定性,CTDE 下的 Q 值是不够的,这会造成在复杂问题下训练合作型智能体失败。为了解决该问题,提出了一种风险下附加条件值的新型合作式 MARL 算法 RMIX。
3. Celebrating Diversity in Shared Multi-Agent Reinforcement Learning- Author:Chenghao Li 等【清华大学 张崇洁组】
- Key Words:【个性 & 共性】
- Abstract:MADRL 已经展示了在处理复杂任务上的能力。其成功的部分原因要归因于智能体之间的参数共享。然而,参数共享又会导致智能体出现行为一致性,束缚了合作的能力。我们提出了一种信息理论规则去最大化智能体身份和他们轨迹的交互信息,鼓励智能体探索并分散他们个体的行为。具体而言,作者合并了在共享神经网络结构中的特殊智能体模块,这个模块是由 L1-norm 规则化得到的,目的就是在保持必要的差异下,也能促进智能体之间的学习共享。
4. Towards Understanding Cooperative Multi-Agent Q-Learning with Value Factorization- Author:Jianhao Wang 等【清华大学 张崇洁组】
- Key Words:【值分解】【FQI】
- Abstract:值分解是合作式 MARL 下的常用的方法,该方法平衡了学习的可扩展性和值函数的捕捉。然而,理论上这些方法本身是受限的。本文提出了一种多智能体 FQI 的方法,用于分析分解的多智能体 Q 学习。在该框架下,我们研究了线性值分解,并且揭示了简单的值分解多智能体 Q 学习会意识到一个强大的反事实汇报分配,但是可能在某些环境下不收敛。通过进一步分析,作者发现 On-Policy 训练或者富联合值函数能分别改进本地或者全局收敛的特性。
5. FACMAC: Factored Multi-Agent Centralized Policy Gradients- Author: Bei Peng 等【牛津大学 Whiteson组】
- Key Words:【梯度策略分解】
- Abstract: 作者提出了 FACtored Multi-Agent Centralised policy gradients (FACMAC), 一种在离散或者连续状态空间内的,新式的合作式多智能体强化学习的方法。作者的方法类似 MADDPG ,使用了DDPG 作为学习的策略。然而,FACMAC 学习了一种中心化但分解的 Critic,它通过一个非线性的单调函数,如QMIX一样连结了每个智能体。而与 QMIX 的区别在于,在化解 Critic 上,没有一个固定的约束。因此我们也使用了一种非单调的因子化,并证明它所提升的能力允许其解决一些无法用整体,或者线性因子 Critics 解决的一些任务。另外,相比于 MADDPG 种分别估计每个智能体动作空间,FACMAC 使用了一个中心化策略梯度估计器。作者分别在 MuJoCo 和 SMAC 环境上做了测试,效果远超 MADDPG 等其他算法。
6. Multi-Agent Reinforcement Learning for Active Voltage Control on Power Distribution Networks- Author:Jianhong Wang 等【英国:帝国理工学院】
- Key Words:【MARL 应用:电压控制】
- Abstract:本论文解决了在电力网络中存在的一个问题,并挑战了现实环境。脱碳趋势导致在配电网络上造成了巨大的压力。动态电压控制被视为一种解决方案,它无需额外的硬件投入就可以改善电压质量,利用网络中的控制装置,例如 PVs 和 SVCs。控制设备又多,覆盖范围又广,MARL 自然就成了解决该问题的候选者。该论文在 Dec-PoMDP 框架下设计了电压控制问题,并建立了一个开源环境。它的目标就是用 MARL 解决电力问题。
7. Episodic Multi-agent Reinforcement Learning with Curiosity-driven Exploration- Author:Lulu Zheng 等 【清华大学 张崇洁组 & 南京大学 高阳组 & 网易伏羲】
- Key Words:【多智能体探索问题】
- Abstract:多智能体强化学习的高效探索依然是个问题。本文提出了一种新颖的片段式 好奇心驱动探索 MARL 算法:EMC。作者运用了一种流行的分解 MARL 算法的 insight,即“被引导”的个体 Q 值是一种本地动作观测值历史的 embedding,并且也能在整个中心化学习过程中借助奖励回传机制捕捉智能体之间的交互。因此,作者使用了个体 Q 值的预测误差作为内在激励用于合作探索和使用片段式存储来去利用被探索过的信息经验,最后用于提升策略训练。同时这种内在奖励机制也能导致合作探索一些新的或者有价值的 state。
8. PettingZoo: Gym for Multi-Agent Reinforcement Learning
Authors:J. K. Terry 等【马里兰大学】
- Key Words:【MARL:环境】
- Abstract:一个基于 Gym 做出了一些改进的环境。相比于之前的环境来说,规范了一些标准。
9. Settling the Variance of Multi-Agent Policy Gradients- Author:Jakub Grudzien Kuba 等【伦敦国王学院 汪军组】
- Key Words:【多智能体 Policy Gradient:方差问题】
- Abstract:在 MARL 中,尽管 PG 理论可以被扩展,但是因为梯度方差会随着智能体数目的增加而增加,Multi Agent PG 方法的效率会降低。本文提出了一种 MAPG 方法的严格理论分析,这些方法通过量化多智能体的和智能体们探索的估计贡献。基于这种分析,作者提出了 optimal baseline(OB)用于最小化方差。作者将本文的算法 OB 和 vanilla MAPG 和COMA 算法做了对比。考虑道使用了深度神经网络,作者也提出了一个 OB 的代理版本,可以直接无缝衔接其他多种 MARL PG 算法。
10. Learning to Ground Multi-Agent Communication with Autoencoders- Author:Toru Lin 等【麻省理工学院 & Facebook】
- Key Words:【通信问题】
- Abstract:智能体之间的通信需要有一种公共语言,如:lingua franca(译为:通用语)。通过共识的过程可以形成这种语言,但是它可能需要代的试验和错误;或者通用语言由环境给出,其中的智能体在观察到的世界中接受它们的语言。作者展示了一种简单的方式在学习的表征下接受语言,促进了多智能体通信和协作。作者发现了一个标准表征学习算法,autoencoding。当智能体广播这些表征时,他们可以学习并理解彼此的通信,并在各种多智能体通信环境中实现强大的能力。
11. A Law of Iterated Logarithm for Multi-Agent Reinforcement Learning- Author:Gugan Thoppe 等【印度科学研究所班加罗尔 & 威斯康辛大学】
- Key Words:【RL理论:随机近似】
- Abstract:现有的 RL 都是在随机近似上解决的。本文针对随机近似做了一些研究。(抱歉,由于个人能力原因,本文看不太明白)
12. Learning to Simulate Self-driven Particles System with Coordinated Policy Optimization- Author:Zhenghao Peng 等【香港中文大学 周博磊组 & 商汤 & 博智感知交互研究中心】
- Key Words:【MARL 环境设计:车流】
- Abstract:自驱动粒子系统(Self-Driven Particles ,SDP)描述了一种我们日常生活中多智能体系统,诸如鸟群或者交通流。在该系统下,每个智能体追逐自身目标, 并且会不断改变和周围智能体的合作或者竞争的关系。人为设计这种 SDP 本身是不现实的。因此这种SDP 的现实模拟问题依然是具有挑战性的。强化学习可以解决该问题,但是在多智能体强化学习方法下都会将智能体定义为队友和敌人,这在混合环境下这些智能体的角色很难被捕捉。其关键的问题在于不仅要协调智能体的行为同时依旧要保证最大化个人利益。本文将交通环境作为一个测试环境,同时设计了一个 MARL 算法:CoPO 用于解决该问题。
13. Taming Communication and Sample Complexities in Decentralized Policy Evaluation for Cooperative Multi-Agent Reinforcement Learning- Author:Xin Zhang 等【爱荷华州立大学 & 俄亥俄州立大学 & IBM】
- Key Words:【策略评估问题】
- Abstract:一个挑战就是在合作式 MARL 下的策略估计问题。这种只能以一种分布式结构执行。本文关注了在 Decentralized MARL下利用非线性函数估计做策略评估。首先作者表明,去中心化的 MARL 策略估计问题可以被重构为一种去中心化的 nonconvex-strongly-concave minimax 鞍点问题。随后提出了一个算法:一种去中心化的梯度下降上升算法(GT-GDA),收敛率为O(1/T)。为了进一步降低采样复杂性,我们还做了两个优化算法。
如果觉得有用,就请分享到朋友圈吧!
你好,我是对白,清华计算机硕士毕业,现大厂算法工程师,拿过8家大厂算法岗SSP offer(含特殊计划),薪资40 W-80 W不等。
高中荣获全国数学和化学竞赛二等奖。
本科独立创业五年,两家公司创始人,拿过三百多万元融资(已到账),项目入选南京321高层次创业人才引进计划。创业做过无人机、机器人和互联网教育,保研清华后退居股东。
我每周至少更新三篇原创,分享人工智能前沿算法、创业心得和人生感悟。