本文作者 张玉宏
博士毕业于电子科技大学,美国西北大学访问学者,现执教于河南工业大学。中国计算机协会(CCF)会员,CCF YOCSEF郑州2018—2019年度副主席,ACM/IEEE会员。《品味大数据》一书作者。主要研究方向为大数据、人工智能、技术哲学。发表学术论文20余篇,国内外学术作品7部。阿里云云栖社区专栏作家,博文累计阅读逾百万次。
强化学习的背景
在上一篇文章中(阅读请扫描下方二维码),我们感性地认知了机器学习的三大门派:监督学习、非监督学习、半监督学习。在传统的机器学习分类中,并没有包含强化学习。但实际上,在连接主义学习中,还有一类人类学习常用、机器学习也常用的算法—强化学习(Reinforcement Learning,简称RL)。
《“机器学习”三重门 “中庸之道”趋若人 》
机器学习的本质,在于改善机器的“智能”水平。那我们就要问了:什么是智能?关于智能的定义有很多,正所谓“仁者见仁,智者见智”。
比如说,中国另一位先哲孟子说:“是非之心,智也。”孟子认为,能分辨是非得失,就是有智能的表现。而这里的“是非”之别,在西方可用莎士比亚的名句“to be or not to be”来概括。
在智能的世界里,它既包含了逻辑,同时也包含了大量的非逻辑成分,比如说模糊、直觉、非公理等因素。
哈弗大学罗兰科学研究所(Rowland Institute for Science)教授威尔逊(Stewart Willson)对此也有自己独到的见解。他认为,关于对智能的认识,我们应当向大自然学习。
在大自然中,智能的表现与生物体对生存的需求紧密相关。正是生存的压力和动力,不断划清自然界中的不同问题,并逐步习得解决这些问题的能力,从而使得生物表现出多样性,进而也表现出不同层面的智能。
其实,威尔逊教授的核心观点说的是,从环境中交互获得智能。而“强化学习”就是一种从环境交互中改善自己性能的机器学习方式。
什么是强化学习
强化学习也是机器学习里面非常重要的一个流派。“强化学习”亦称“增强学习”,但它与监督学习和非监督学习都有所不同。强化学习强调的是,在一系列的情景之下选择最佳决策,它讲究通过多步恰当的决策来逼近一个最优的目标,因此它是一种序列多步决策的问题。
强化学习的设计灵感,源于心理学中的行为主义理论:有机体如何在环境给予的奖励或惩罚刺激下,逐步形成对刺激的预期,从而产生能获得最大利益的习惯性行为。
上面的论述看起来比较抽象,下面我们举一个生活中的例子来说明这个概念。对于儿童教育,有句话非常流行:“好孩子是表扬出来的”。
这句话很有道理,它反映了生物体以奖励为动机的行为。比如,我们知道,让一个小孩子静下来学习,这是十分困难的。但如果父母在他每复习完一篇课文时就说一句“你真棒”并奖励他一块巧克力,那么他就会明白,只有不断学习才能获得奖励,从而也就更有劲头学习了。
“表扬”本身并不等同于监督学习的“教师信号”(即告诉你行为的正误),却也能逐步引导任务向最优解决方案进发。因此,强化学习也被认为是人类学习的主要模式之一。监督学习、强化学习与非监督学习的区别,如下图所示。
监督学习、强化学习与非监督学习的区别
一个形象的例子
恰如其分地拿捏尺度,显然是智能的外在表现之一。“过犹不及”说得就是这个道理。那么,强化学习是如何让智能体从环境中学习,找到这个“尺度”的呢?下面我们举例来感性认知一下,人类是怎么从环境中学习的。
感性认知强化学习
如上图所示假设,我们还是一个懵懂的孩子,对于一些新事物一无所知。有一天,我们第一次看到了火,然后就爬到了火堆的旁边。在靠近火的过程中,感受到了火的温暖,觉得好舒服啊。这时环境给我们的回报为“ 1”分。于是,我们接着爬向火堆,越靠越近,然后伸手尝试摸火,发现好烫啊,这时环境给我们的回报为“-10”分,这是要警告我们需要赶紧把手缩回来,滚远一点,否则小手就变成“烤猪蹄”了。
这样一来二去,我们从“环境”中习得一项智能:距离稍远,火是好东西。靠得太近,火就不是好东西!
这就是人类的学习方式,与环境交互,增强智能。其实,强化学习在理念上和这个例子是一致的,不同的是,主角变成了计算机(智能体)。
经典的“西瓜”
在雅称为“西瓜书”的《机器学习》一书中,南京大学的周志华教授就用种西瓜的例子来说明“强化学习”的含义,也别有意义。
考虑一下种西瓜的场景。西瓜从播种到瓜熟蒂落,中间要经过很多步骤。首先得选种,然后播种、定期浇水、施肥、除草、杀虫等,最后收获西瓜。这个过程要经过好几个月。如果把收获高品质的西瓜作为辛勤劳作奖赏的话,那么在种瓜过程中实施某个操作(如浇水、施肥等)时,我们并不能立即得到相应的回报,甚至也难以判断当前操作对最终回报(收获西瓜)有什么影响,因为浇水或施肥并不是越多越好。
然而,即使我们一下子还不能看到辛勤劳作的最终成果,但还是能得到某些操作的部分反馈。例如,瓜秧是否更加茁壮了?通过多次的种瓜经历,我们终于掌握了播种、浇水、施肥等一系列工序的技巧(相当于参数训练),并最终能够收获高品质的西瓜。如果把这个种瓜的过程抽象出来,它就是我们说到的强化学习,如下图所示。
强化学习示意图
在机器学习问题中,环境通常被规范为一个马可夫决策过程(Markov Decision Processes,MDP),许多强化学习算法就是在这种情况下使用动态规划技巧。
强化学习输出的就是一个由状态、奖励和行动组成的序列。而智能体的目标,就是让预期累积回报最大化。
强化学习“强”在哪里
强化学习并不需要出现正确的“输入/输出对”,也不需要精确校正次优化的行为。深度学习“妙”在不需要做特征工程,而强化学习则“强”在不需要准备大量的训练样本,它重视的是环境给予的反馈。
强化学习更好地体现了人们(高智能动物)的为人处世原则:“这世间,没有对错(非黑即白)之分,只有利害之度量”。
强化学习更专注于在线规划,需要在“探索”(在未知的领域)和“利用”(现有知识)之间找到平衡。强化学习中的“探索-利用”的交换,这在多臂老虎机问题和有限MDP中研究得较多。
与强化学习相关的一则报道是,2017年10月,Google深度思维团队在著名学术期刊Nature(自然)上发表了一篇论文“Mastering the game of Go without humanknowledge(无须人类知识,精通围棋博弈),他们设计了AlphaGo(阿法狗)的升级版AlphaGo Zero(阿法元),阿法元从零开始,不需要人类任何历史围棋棋谱做指导,完全靠强化学习来参悟,自学成才,并以100∶0击败了阿法狗。
论文的第一作者、AlphaGo创始人之一大卫·席尔瓦(David Silver)指出:“阿法元远比阿法狗强大,因为它不再被人类的知识所局限,而是能够发现新知识,发现新策略。”这确实是机器学习进步的一个重要标志!
————
本文节选自博文视点新书《深度学习之美:AI时代的数据处理与最佳实践》,本书深入浅出地介绍了深度学习的相关理论和实践,零入门 | 高可读| 重实战 | 抓前沿!是一本准受用的深度学习入门教程,集各项前沿技术之大成!没赶上上次的新鲜胶囊,千万不可再次错过阅读原文为你开启的任意门,帮你建设四化、学有所强。
- 内容简介:深度学习是人工智能的前沿技术。本书深入浅出地介绍了深度学习的相关理论和实践,全书共分16章,采用理论和实践双主线写作方式。第1章给出深度学习的大图。第2章和第3章,讲解了机器学习的相关基础理论。第4章和第5章,讲解了Python基础和基于Python的机器学习实战。第6至10章,先后讲解了M-P模型、感知机、多层神经网络、BP神经网络等知识。第11章讲解了被广泛认可的深度学习框架TensorFlow。第12章和第13章详细讲解了卷积神经网络,并给出了相关的实战项目。第14章和第15章,分别讲解了循环递归网络和长短期记忆(LSTM)网络。第16章讲解了神经胶囊网络,并给出了神经胶囊网络设计的详细论述和实践案例分析。