agent_字节宝

课程实录丨增强学习入门（3）

我们再回到这张图上，我们如何去计算呢？我们就需要把这个问题去做一个推演，我们刚才其实已经看到了有那么一个序列，那个序列就是环境给我们一个状态，我们产生一个行动环境，给我们一个状态，我们产生一个行动，这样不断交替的，那么...

action agent environment policy state

2020-06-11

课程实录丨增强学习入门（1）

然后我们还可以仔细再观察一下这个序列，就像刚才发的这张图片一样，这个序列其实是两种类型的事物之间交替出现的一个过程。一种类型就是State，另一种类型是Action，所以其中的这个状态或者说事物跳变有两种形式，一种形式就...

action agent environment policy state

2020-06-11

通过图像训练强化学习模型

在gym中运行atari环境的时候可以选择同一个游戏的内存方式或者图像方式，内存方式直接返回游戏的状态，图像方式返回当前游戏的画面

agent normalization plot

2020-04-16

Q，Friend-Q，Foe-Q，Ce-Q 简要对比

它们都可以用于 multi-agent 环境，下面以 soccer game 为例。

action agent friend 表格

2020-04-14

什么是 Multiagent Q Learning

multiagent 是指同时有多个 agent 更新 value 和 Q 函数，主要的算法有：q learning， friend and foe q leaning，correlated q learning，在每个训练步骤，学习器会考虑多个 agent 的联合 states，actions，reward，来更新 ......

agent friend

2020-04-09