强化学习(三)算法概述
前面的文章我们已经介绍过强化学习的强化学习(一)入门介绍和强化学习(二)重要概念,这篇文章介绍强化学习的算法概述。
强化学习主要由环境Environment、智能体Agent、状态State、动作Action、奖励Reward等构成,整个场景可以描述为一个马尔可夫决策过程(Markov DecisionProcess MDP)。
1、是否需要理解环境:
强化学习可以分为基于模型Model-Based和不基于模型Model-Free的强化学习算法,Model-Free 就是不需要理解环境,直接行动根据环境的反馈进行之后的行动;Model-Based就是需要先理解环境,并且建立一个关于环境的模型,预判接下来要发生的情况,并选择最好的情况,依据这种情况采取下一步行动。
2、基于概率还是基于价值:
强化学习中基于概率的Policy based 方法是根据所处环境的状态输出下一步可以采取动作的概率,每个动作的概率不一样,但都可能被选中;基于价值的Value based方法输出的则是所有动作的价值,并根据价值高低来选择动作,基于价值的决策更为固定。
3、单步更新还是回合更新:
强化学习中的蒙特卡洛算法Monte-carlo是一种回合更新方法,在游戏开始之后需要等到回合结束才能基于整个回合对行为策略进行更新;而时序差分算法Temporal-difference是在游戏进行中的每一步都可以更新,可以边行动边学习,不需要等到整个游戏结束,效率更高。
4、在线学习还是离线学习:
强化学习中的On-policy方法是一种在线学习方法,需要本人在场,并且边行动游戏边学习;而Off-policy方法是一种离线学习方法,既可以利用过往的经验进行学习,也可以选择看别人玩,就是不需要亲自去边玩边学,也可以进行更新提高行为准则。