强化学习笔记2:Markov decision process(MDP)

2020-08-31 14:24:41 浏览数 (1)

马尔科夫过程(Markov Process,MP)

我们说一个state若满足 ,则其具有马尔可夫性,即该state完全包含了历史中的所有信息。马尔科夫过程是无记忆的随机过程,即随机状态序列 具有马尔可夫属性。

马尔科夫奖励过程(Markov Reward Process,MRP)

解析解

马尔科夫决策过程(Markov Decision Process,MDP)

收获 Return

价值函数和动作值函数

贝尔曼方程

贝尔曼最优方程

求解最优方程方法

  • Value iteration
  • Policy iteration
  • Q-learning
  • Sarsa

0 人点赞