读论文:《Correlated-Q Learning》

2020-04-02 11:15:41 浏览数 (1)

今天要读一篇 Amy Greenwald 的论文《Correlated-Q Learning》,先记一下论文中的基础概念,然后再去深入解读。

这篇论文的目标是:在 general-sum 马尔可夫博弈中学习均衡策略

纳什均衡:

  • 不同的 action 服从独立概率分布
  • 所有的 agents 都针对另一个概率进行优化

相关均衡:

  • agents 的概率分布之间存在依赖
  • 可以用线性规划来计算

Correlated-Q:

  • 在 general-sum 博弈中,相关均衡包含纳什均衡
  • 在 constant-sum 博弈中,相关均衡包含极小极大

马尔可夫博弈:

  • I,一组 players
  • S,状态
  • Ai(s),其中 s 属于S,i 属于 I,第 i 个玩家在状态 s 可用的 actions
  • P,概率转移函数
  • R(i),第 i 个玩家的奖励

马尔可夫博弈中的Q:

  • 用 State-action 向量,而不是 State-action 对
  • Qi(s, a) = (1-gamma) * Ri(s, a) gamma * sum(P(s' given s,a) * Vi(s'))

Friend Q:

  • 所有 players 的奖励函数是一样的
  • Vi(s) = max Qi(s, a)

CE-Q:

  • 功利主义:最大化所有玩家的奖励总和-argmax sum of players rewards
  • 平等主义:最大化所有玩家奖励的最小值-argmax min
  • 共和主义:最大化所有玩家奖励的最大值-argmax max
  • 自由主义:最大化每个玩家的最大奖励-argmax rewards where result is a Correlated Equlibrium

0 人点赞