强化学习——学习记录1

2024-08-01 11:32:10 浏览数 (2)

1 什么是机器学习

机器学习:

计算机系统能够从数据中学习并做出预测或决策。算法是机器学习的核心,通过算法的构建去优化做出的预测和决策。

机器学习有哪些类型呢?

  • 监督学习(Supervised Learning): 数据是有标签,通过有标签的训练数据中学习,包括输入特征和相应的输出标签。常见的任务包括分类和回归。
  • 无监督学习(Unsupervised Learning):在没有标签的数据中尝试找到数据中的结构和模式。常见的任务包括聚类和降维。
  • 半监督学习(Semi-Supervised Learning):使用少量标记数据和大量未标记数据进行学习,介于监督学习和无监督学习之间。
  • 强化学习(Reinforcement Learning):如前所述,智能体通过与环境的交互来学习如何采取行动以最大化累积奖励。后面将继续详细展开学习!
  • 自监督学习(Self-Supervised Learning):一种无监督学习,算法通过预测数据的某些方面来学习,这些方面通常是从数据本身推导出来的。

机器学习就是通过带标签或者不带标签的数据,从数据中分析一定的逻辑与预测一定的结果结论,从而解决生活中遇到的问题。这其中我们需要输入数据,提取数据的特征,然后训练,再用测试集进行测试。测试过于依赖数据还会出现过拟合等情况。

以上是对机器学习的了解。

2什么是强化学习

在通过以上对机器学习的了解,再来了解强化学习。强化学习是机器学习中的一种,机器学习需要通过数据来分析,而强化学习就是将数据这种输入变成环境输入,通过主题与环境的交互情况,来改变学习规则,从而达到学习最终的目的。也就是以下的介绍:

强化学习:

主要关注如何在环境中采取行动以最大化某种累积奖励。强化学习的核心是主体通过与环境的交互来学习最佳策略,即在给定状态下选择最佳动作的规则。

强化学习有哪些常见类型呢?

  • 基于模型(Model-Based):建立一个模型,该模型可以学习环境,并跟随环境的变化而变化。模型的建立就是需要将变化的情况转化为状态变化的概率和函数,然后通过模型的学习达到规划的最优策略。
  • 无模型(Model-Free):算法直接从与环境的交互中学习策略,这个策略的建立的基础不是在立环境模型的基础上进行的。
  • 策略方法(Policy-Based):直接学习或优化策略函数,即从状态到动作的映射。
  • 价值方法(Value-Based):学习价值函数,如状态价值函数或动作价值函数(Q函数),然后使用这些函数来选择最佳动作。
  • 蒙特卡洛方法(Monte Carlo Methods):通过完整的样本轨迹来估计期望回报。
  • 时序差分方法(Temporal Difference, TD):通过估计当前状态的即时回报与未来回报的差异来更新价值函数。

强化学习的具体实际应用呢?

生活中比较常见的有无人驾驶,通过大量的交通数据,让车辆与实际环境交互,通过一定的奖励机制让无人驾驶实现一定的轨道运行。当然现在比较火的就是深度学习,进行计算机视觉检测,图相分类与识别等。

总结

学习机器学习与强化学习的区别,记录!

0 人点赞