机器学习到底是个什么鬼?

2019-07-22 10:58:53 浏览数 (1)

#监督学习#

小编上学的时候,是一只正版的学霸,每天的日常就是拿着一堆练习册刷题。

每当刷完题之后,小编都会用参考答案来检查一遍:做对的题目能加深印象,做错的题目就改正过来。

这样刷过很多题后,就会总结出解法(套路)。每看到一道新的题目,脑海里就会浮现出之前遇到过的类似习题;然后小编利用解法,十有八九都能顺利搞定。

(说的就是我们刷题党)

其实,我们这种刷题法,就是机器学习的第一种方式,名叫「监督学习」。

所谓监督学习,就是用标记过后的样本来训练模型

如果把模型比作学生的解题方法论,样本就是学生所做的题目,样本的标记就是参考答案。

训练过程中,模型的每一次预测都会受到标记(习题参考答案)的“指导”,自然会较快地学到训练样本中“正确”的规律(有效的解题方法论)。

遇到未知样本(新的题目)时,就能比较好地进行预测(解题)。

(看了这个,还敢说监督学习很陌生么)

监督学习的一个典型应用是分类任务。

所谓分类,就是利用模型,把样本正确地归为几种已知的类别。

比如我们希望有一个模型,可以将喵和汪的照片自动分为“喵类”和“汪类”,那么可以收集一堆喵的照片与一堆汪的照片,并做上标记(告诉机器每一张照片是喵还是汪),然后进行模型训练。

训练好之后,模型就通过大量的有标记样本学到了喵与汪的特征以及区分它们的办法,之后遇到新的喵汪图片,也就可以自己作出判断了。

(喵汪分类模型的训练与预测)

#无监督学习#

监督学习可以高效地让模型获得训练样本中蕴含的规律,但样本的标记成本其实很高。标记往往通过人工完成,尽管很多标记工作本身并不复杂,但在样本量庞大的时候仍然十分可怕。

(不服就来标记一下吧)

正如我们曾经做过不少没有参考答案的习题,互联网上的数据绝大部分也是没有标记的。如果能将这些海量的没有标记的数据很好地利用起来,对于模型的训练将是一笔巨大的财富。未经标记的样本用于模型的训练,一般通过「无监督学习」与「半监督学习」。

所谓无监督学习,就是提供一堆完全未经标记的样本,让机器自己去发掘其中的内在规律

它的一个典型应用是聚类任务。

聚类是指将样本分为若干个不同的类,它所依据的标准往往由人通过聚类算法来刻画。

比如有一堆未标记的动物照片,其中有汪有喵还有一些别的物种,通过某种聚类算法,机器就可以发掘图片间的内在规律,自动将它们分为几类。

有意思的是,机器聚类的结果有可能是按照物种区分,也有可能是按照别的一些标准(比如大小、颜色)。至于是不是我们所想要的,很大程度上就取决于聚类算法的好坏了。

聚类从技术原理层面可以看作用某种指标,来刻画样本间的“相似程度”;相互间相似程度大的样本就会被聚为一类,相似程度不大的样本则不会出现在同一类中。好比对于一些没有参考答案的习题,我们往往也能够根据题目本身的信息大致为它们进行归类一样。

#半监督学习#

半监督学习与无监督学习的差异在于,除了利用大量未经标记的样本,还利用了少量的有标记样本

这就如同学生在参考答案的指导下做过少量的习题过后,已经对题目的规律有一定认知,之后再做一些没有参考答案的题目自己练习,依然可以起到不错的训练效果。

半监督学习既可以用于分类任务,也可以用于聚类任务。

对于分类任务,在判断样本类别时,不仅可以像监督学习那样利用有标记样本的类别信息,大量的无标记样本也可以通过揭示样本的分布情况来为分类提供参考

对于聚类任务,少量的有标记样本则可以作为聚类的约束条件或初始条件

(无标记样本可以为分类提供参考)

#强化学习#

与刷题不同,人们对生活经验的学习往往通过另外一种方式:趋利避害,使外界的反馈变得最优

小时候我们都很任性,结果往往就是被大人批评。然后我们发现,如果稍微“懂事”一点,则会收到外界更好的反馈。逐渐地,我们遇到事情都会尽量采用懂事的做法。

上面的现象反映了我们根据外界反馈调整自身行为的本能,这个思想用到机器学习领域中就是「强化学习」。

强化学习设定了机器执行任务过程中外界环境的各种状态,并为这些状态设定了相应的奖赏值(正或负);各种状态间通过机器的不同“动作”进行转换。

强化学习的目标是让机器获得某种策略(在什么状态下做什么动作),使得任务执行所获得的总奖赏值最大(代表最优的任务执行结果)。

(泡面任务中的环境状态与转换)

强化学习非常适用于需要机器根据外界环境进行自主决策的场景,比如无人驾驶、机器人等等。

#总结#

「监督学习」、「无监督学习」、「半监督学习」以及「强化学习」是目前应用较多的几种机器学习方式。

它们虽然被应用于机器,却都和我们自己学习知识技能的方式非常相似。

有时甚至会觉得,人何尝不是一种先进的机器,机器先进到一定程度也未尝不能具有人的特性呢?

人工智能(AI)现在可谓是红得发紫,大牛们总是把AI挂在嘴边。为了将来不被它抢了饭碗,小枣君觉得很有必要对它进行学习和了解的。无奈这个跨界实在跨得有点大,小枣君这点料肯定玩不转,所以转载一篇小枣君觉得写得比较通俗易懂的机器学习文章给大家,希望对大家有所帮助哈!

0 人点赞