强化学习笔记2：Markov decision process(MDP)

2020-08-31 14:24:41 浏览数 (3)

马尔科夫过程（Markov Process，MP）

我们说一个state若满足，则其具有马尔可夫性，即该state完全包含了历史中的所有信息。马尔科夫过程是无记忆的随机过程，即随机状态序列具有马尔可夫属性。

马尔科夫奖励过程（Markov Reward Process，MRP）

解析解

马尔科夫决策过程（Markov Decision Process，MDP）

收获 Return

价值函数和动作值函数

贝尔曼方程

贝尔曼最优方程

求解最优方程方法

Value iteration
Policy iteration
Q-learning
Sarsa
等

iteration policy process state

1 人点赞