我们再回到这张图上,我们如何去计算呢?我们就需要把这个问题去做一个推演,我们刚才其实已经看到了有那么一个序列,那个序列就是环境给我们一个状态,我们产生一个行动环境,给我们一个状态,我们产生一个行动,这样不断交替的,那么...
然后我们还可以仔细再观察一下这个序列,就像刚才发的这张图片一样,这个序列其实是两种类型的事物之间交替出现的一个过程。一种类型就是State,另一种类型是Action,所以其中的这个状态或者说事物跳变有两种形式,一种形式就...
在gym中运行atari环境的时候可以选择同一个游戏的内存方式或者图像方式,内存方式直接返回游戏的状态,图像方式返回当前游戏的画面
如果你收到一封邮件,邮件内容全是你没有见过的符号;但你有一份中文版的说明手册,这个手册能够告诉你如何将这些符号连接起来。现在你的任务是,根据这个手册将这些符号连接起来,并回复给原邮件。...
Q-learning 是要让 agent 通过不断地玩游戏,从环境给予的奖励反馈中学习到给定state下的最优 action。