上文我们介绍了使用简单的Random Guessing Algorithm & Hill Climbing 算法来解决CartPole问题,主要在决策动作这个步骤进行了修改,但是上文介绍的方法都是随机改变权重,针对简单问题参数量比较少的问题可能会得到比较好...
上文我们已经理解强化学习的基础概念以及其目标是找到一个策略 最大化未来累计奖励。同时介绍了几种常用的寻找最优策略的方法。在强化学习中还会将这些方法分类为model-based和model-free,value-based和policy-...
最近了解了强化学习方面的知识,准备进行下整理和总结。本文先介绍强化学习中一些基础概念。
好久没有更新强化学习这个系列了,今天继续更新下强化学习系列的A3C技术,后面会结合当前最火大模型强化学习训练持续更新此系列。