今天要读一篇 Amy Greenwald 的论文《Correlated-Q Learning》,先记一下论文中的基础概念,然后再去深入解读。
这篇论文的目标是:在 general-sum 马尔可夫博弈中学习均衡策略
纳什均衡:
- 不同的 action 服从独立概率分布
- 所有的 agents 都针对另一个概率进行优化
相关均衡:
- agents 的概率分布之间存在依赖
- 可以用线性规划来计算
Correlated-Q:
- 在 general-sum 博弈中,相关均衡包含纳什均衡
- 在 constant-sum 博弈中,相关均衡包含极小极大
马尔可夫博弈:
- I,一组 players
- S,状态
- Ai(s),其中 s 属于S,i 属于 I,第 i 个玩家在状态 s 可用的 actions
- P,概率转移函数
- R(i),第 i 个玩家的奖励
马尔可夫博弈中的Q:
- 用 State-action 向量,而不是 State-action 对
- Qi(s, a) = (1-gamma) * Ri(s, a) gamma * sum(P(s' given s,a) * Vi(s'))
Friend Q:
- 所有 players 的奖励函数是一样的
- Vi(s) = max Qi(s, a)
CE-Q:
- 功利主义:最大化所有玩家的奖励总和-argmax sum of players rewards
- 平等主义:最大化所有玩家奖励的最小值-argmax min
- 共和主义:最大化所有玩家奖励的最大值-argmax max
- 自由主义:最大化每个玩家的最大奖励-argmax rewards where result is a Correlated Equlibrium