【四】-强化学习入门简介---PaddlePaddlle强化学习及PARL框架

【一】飞桨paddle【GPU、CPU】安装以及环境配置 python入门教学

【二】-Parl基础命令

【三】-Notebook、&pdb、ipdb 调试

【四】-强化学习入门简介

【五】-Sarsa&Qlearing详细讲解

【六】-DQN

【七】-Policy Gradient

【八】-DDPG

【九】-四轴飞行器仿真

一、AI Studio 项目详解【VisualDL工具】

二、AI Studio 项目详解【环境使用说明、脚本任务】

三、AI Studio 项目详解【分布式训练-单机多机】

四、AI Studio 项目详解【图形化任务】

五、AI Studio 项目详解【在线部署及预测】

1.强化学习基础介绍

监督学习是认知：学习到这个是什么，【样本独立的】

强化学习是决策【样本之间有关系】

强化学习（英语：Reinforcement learning，简称RL）是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。
核心思想：智能体agent在环境environment中学习，根据环境的状态state（或观测到的observation），执行动作action，并根据环境的反馈 reward（奖励）来指导更好的动作。

注意：从环境中获取的状态，有时候叫state，有时候叫observation，这两个其实一个代表全局状态，一个代表局部观测值，在多智能体环境里会有差别，但我们刚开始学习遇到的环境还没有那么复杂，可以先把这两个概念划上等号。

大致分类：

交互环境常用Gym中：

一般控制场景分为:离散控制场景【上下左右有限个】、连续控制场景【0-360°角度，连续的变量】

GYM是强化学习中经典的环境库，下节课我们会用到里面的CliffWalkingWapper和FrozenLake环境，为了使得环境可视化更有趣一些，直播课视频中演示的Demo对环境的渲染做了封装，感兴趣的同学可以在PARL代码库中的examples/tutorials/lesson1中下载gridworld.py使用。
PARL__开源库地址：https://github.com/PaddlePaddle/PARL

然后从github下载程序，可参考：

https://blog.csdn.net/sinat_39620217/article/details/114935394

https://blog.csdn.net/sinat_39620217/article/details/114935069

下载完PARL打开对应example

只需要红框对应代码，多集群。（多线程代码）

只需要拷贝一份代码到learner master机器上，当集群存在别的机器会自动拷贝代码到其余机器上。

这里采用1.8 paddle------------考虑到目前开源程序采用的都是1.8版本及之前的所以安装2.0运行代码调试问题比较大，迁移工具也无法完全改进成功

0 人点赞