最新 最热

课程实录丨增强学习入门(3)

我们再回到这张图上,我们如何去计算呢?我们就需要把这个问题去做一个推演,我们刚才其实已经看到了有那么一个序列,那个序列就是环境给我们一个状态,我们产生一个行动环境,给我们一个状态,我们产生一个行动,这样不断交替的,那么...

2020-06-11
1

课程实录丨增强学习入门(1)

然后我们还可以仔细再观察一下这个序列,就像刚才发的这张图片一样,这个序列其实是两种类型的事物之间交替出现的一个过程。一种类型就是State,另一种类型是Action,所以其中的这个状态或者说事物跳变有两种形式,一种形式就...

2020-06-11
1

通过图像训练强化学习模型

在gym中运行atari环境的时候可以选择同一个游戏的内存方式或者图像方式,内存方式直接返回游戏的状态,图像方式返回当前游戏的画面

2020-04-16
0

Q,Friend-Q,Foe-Q,Ce-Q 简要对比

它们都可以用于 multi-agent 环境,下面以 soccer game 为例。

2020-04-14
1

什么是 Multiagent Q Learning

multiagent 是指同时有多个 agent 更新 value 和 Q 函数,主要的算法有:q learning, friend and foe q leaning,correlated q learning,在每个训练步骤,学习器会考虑多个 agent 的联合 states,actions,reward,来更新 ......

2020-04-09
1

理解是智能的前提,但什么是理解?

如果你收到一封邮件,邮件内容全是你没有见过的符号;但你有一份中文版的说明手册,这个手册能够告诉你如何将这些符号连接起来。现在你的任务是,根据这个手册将这些符号连接起来,并回复给原邮件。...

2020-03-25
0

ZABBIX 自定义采集触发时间范围

周一到周五每天上午09:15-11:30 每隔5秒获取一次数据,下午13:00-15:00每隔10秒获得一次数据,其它时间段不获取数据。

2020-03-24
0

什么是 Q-learning?

它是强化学习中的一种 values-based 算法,最终是会学习出一个表格 Q-Table,例如在一个游戏中有下面5种状态和4种行为,则表格为:

2020-03-20
1

Q-learning 的本质是在干什么?

Q-learning 是要让 agent 通过不断地玩游戏,从环境给予的奖励反馈中学习到给定state下的最优 action。

2020-03-20
1

Q-learning 的 python 实现

通过前面的几篇文章可以知道,当我们要用 Q-learning 解决一个问题时,首先需要知道这个问题有多少个 state,每个 state 有多少 action,并且建立一个奖励表格 P,维度是 action * 4,这4列分别标记着采取每个 action 的概率,采取...

2020-03-20
0