深度强化学习整理

强化学习来自于心理学里的行为主义理论，是在环境给予的奖励或惩罚信号的反馈下，逐步形成能获得最大利益的行为策略。与监督学习相比，强化学习不需要事先准备样本集，而是通过不断尝试，发现不同动作产生的反馈，来指导策略的学习。与无监督学习相比，强化学习不只是探索事物的特征，而是通过与环境交互建立输入与输出之间的映射关系，得到最优策略。

强化学习的特点：

试错学习：智能体与环境交互，每一步通过试错的方式学习最佳策略，没有任何的指导。
延迟反馈：智能体的试错获得环境的反馈，可能需要等到过程结束才会得到一个反馈。‘
过程性学习：强化学习的训练过程是一个随着时间变化的过程。
环节之间的行为相关性：当前的行为影响后续的状态和行为。
探索和利用的综合：强化学习开始时，智能体更偏向于探索，行为具有一定的随机性，尝试多种可能性，训练很多轮后再降低探索的比例。

强化学习的基本概念

智能体(agent)

不可避免的要与环境进行交互，必须了解环境将如何响应所采取的操作，这是一种多次试验的试错学习方法。

在强化学习的概念中，状态表示智能体的当前状态。智能体执行动作以探索环境。

策略(policy)

定义了智能体在给定状态下的行为准则。

策略函数(可以是连续的也可以是离散的)是从智能体的状态到其在该状态下要采取的行为映射。通常表示为(π(a_t|s_t))，表示在给定状态(s_t)中采取动作(a_t)的条件概率分布。

比如在上图中，马里奥的任务为拿到更多的金币，并且躲避障碍。策略函数π:(s,t)的结果是一个概率，处于[0,1]之间。

(π(a|s)=p(A=a|S=s))

马里奥有三个方向可以行动，那么为了达到更好效果，他向三个方向行动的概率为

π(left | s)=0.2
π(right | s)=0.1
π(up | s)=0.7

强化学习监督学习无监督学习函数深度强化学习

0 人点赞