学习笔记:神经网络学习算法

2020-04-08 11:45:20 浏览数 (1)

主流的神经网络学习算法(或者说学习方式)可分为三大类:有监督学习(SupervisedLearning)、无监督学习(Unsupervised Learning)和强化学习(Reinforcement Learning),如下图所示。

注:有监督学习、无监督学习和强化学习并不是某一种特定的算法,而是一类算法的统称。

有监督学习也称为有导师学习,其特点是需要依赖教师信号进行权值调整,如下图所示。学习时,需要提供训练集。训练集由输入(也称为特征)和输出(也称为目标)构成,也就是说数据被打了标签(Label),其目的就是训练模型以得到在某个评价标准下的最优解。当有新数据也就是未知数据时,再利用这个最优模型进行判定。

无监督学习也称为无导师学习,学习过程不需要教师信号进行权值调整,仅仅根据网络内部结构和学习规则自动挖掘样本内部潜在的规律和信息,最终达到类内差距最小化,类间差距最大化,如下图所示。

强化学习又称再励学习、评价学习,“其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为”[1]。 强化学习是一个序列决策(Sequential Decision Making)问题,它需要连续选择一些行为,从这些行为完成后得到最大的收益作为最好的结果。它在没有任何标签告诉算法应该怎么做的情况下,通过先尝试做出一些行为——然后得到一个结果,通过判断这个结果是对还是错来对之前的行为进行反馈。由这个反馈来调整之前的行为,进而不断地调整算法,从而学习到在什么样的情况下选择什么样的行为可以得到最好的结果[2],如下图所示。

再来看看三类学习算法的区别,如下图所示。有监督学习必须要有训练集与测试样本,在训练集中找规律,而对测试样本使用这种规律;而无监督学习没有训练集,只有一组数据,在该组数据集内寻找规律。有监督学习就是识别事物,识别的结果表现在给待识别数据加上了标签,因此训练集必须由带标签的样本组成;而无监督学习只有要分析的数据集本身,预先没有什么标签,如果发现数据集呈现某种聚集性,则可按自然的聚集性分类,但不予以某种预先分类标签对上号为目的。强化学习和有监督学习、无监督学习最大的不同就是不需要大量的“数据喂养”,而是通过自己不停地尝试来学会某些技能,其更加专注于在线规划,需要在探索(在未知的领域)和遵从(现有知识)之间找到平衡。

如前所述,有监督学习、无监督学习和强化学习只是某一类算法的统称,具体细分如下图所示。

至此,我们可以看到神经元的数学模型、神经网络的连接方式和神经网络的学习方式是决定神经网络信息处理能力的三大要素。

参考文献

[1]https://zh.wikipedia.org/zh-hans/强化学习

[2]https://en.wikipedia.org/wiki/Reinforcement_learning

0 人点赞