Q，Friend-Q，Foe-Q，Ce-Q 简要对比

2020-04-14 11:50:18 浏览数 (3)

它们都可以用于 multi-agent 环境，下面以 soccer game 为例。

Q-learning 只是单独地考虑一个 player 的 Q 值，所以在建立Q表时就建立一个player A 的。 Friend-Q 是假设对手像个朋友一样，他会最大化大家的利益，那么就在 Q 的基础上添加 player B 的action空间即可：

left：Q，right：friend-Q

Foe 是指对手就是完全的对抗状态，他会让另一方的利益最小，尽管这个决策对自己也不利。

Foe-Q 也要同时考虑双方的 action 空间，所以Q表和Friend-Q是一样的形式。

差别在于更新 Q 表时需要求解一个 maximin 问题：

Ce-Q 和前三个的区别是，在建立Q表时，要同时建立两个表：每个表都会同时考虑二者的action空间

它在更新 Q 表时自然也是要同时更新两个表格的，更新的值是通过一个 linear programming 求解的，函数的输入也是两个表格

0 人点赞