马尔科夫过程(Markov Process,MP)
我们说一个state若满足 ,则其具有马尔可夫性,即该state完全包含了历史中的所有信息。马尔科夫过程是无记忆的随机过程,即随机状态序列 具有马尔可夫属性。
马尔科夫奖励过程(Markov Reward Process,MRP)
解析解
马尔科夫决策过程(Markov Decision Process,MDP)
收获 Return
价值函数和动作值函数
贝尔曼方程
贝尔曼最优方程
求解最优方程方法
- Value iteration
- Policy iteration
- Q-learning
- Sarsa
- 等