强化学习已经成为智能技术领域言必称的一种方法了,几乎与深度学习同日而语,无论是在下棋、打牌还是打游戏方面,强化学习以其显著优势已经成为主流技术路线。其实强化学习的起源非常早,大概可以追溯到近百年前,而且是来源于心理学和脑神经科学的启发,作者本来想试着梳理一下发展脉络,没想到知识储备差距比较大,补了不少课,还是不太满意,暂且勉力抛砖引玉,希望对大家有用。
强化学习的发展脉络
强化学习(Reinforcement Learning,简称RL,又译为“增强学习”)这一名词来源于行为心理学,行为心理学认为心理学必须研究人类可观测的行为,而不应研究意识、灵魂等看不见摸不着的那些心理活动。在研究学习活动时,行为心理学尽量不去使用“观念”等术语,而用“刺激”、“反应”等术语来解释学习,比较经典的案例就是巴甫洛夫的狗、斯金纳的鸽子,行为心理学家甚至拿自己的孩子放在研究条件反射的试验箱里,可见科学家们的执着精神。
行为心理学从这种S-R(刺激—反应)的研究出发,只研究那些看得见、听得到和摸得着的东西,拒绝当时无法观测和实证的“意识”、“心理”等心灵主义概念。行为心理学的这种思路向上追溯,可以说是受到机械论唯物主义哲学思想的启发,这种思想认为世界是物质的世界,世界的真正统一性在于它的物质性,行为心理学就比较极端的将心理学的研究范围严格框定在可以通过客观观测的手段重复试验的范畴内开展研究,尝试着将心理学纳入自然科学的范畴。
伴随着S-R(刺激—反应)的研究,行为主义心理学家们发现,生物的学习问题具有强化属性,即生物为了趋利避害而更频繁实施对自己有利的策略。尤其是新行为主义的代表斯金纳对学习问题进行了大量研究的基础上提出了强化理论,十分强调强化在学习中的重要性。行为主义人为学习是一种行为,当主体学习时反应速率就增强,不学习时反应速率则下降。因此把学习定义为反应概率的变化,提出了行为主义学习理论。这与图灵提出的人工智能的研究途径有异曲同工之处,即给机器配备好各类先进的传感器, 然后像教孩子一样教他学习,都是一种将大脑或者说从刺激到反应的过程看成黑盒的方式。
强化学习的理论基础即在于此,将智能体的学习过程看成是一种与环境的刺激-反应过程,通过智能体与环境的交互过程来学习策略以达成回报最大化或实现特定目标,其经常使用的模型方法是马尔科夫决策过程(MDP),而且伴随着决策问题复杂度的提升,其方法也逐渐从比较经典的MDP向更加接近现实的约束马尔可夫决策过程、模糊马尔可夫决策过程和部分可观察马尔可夫决策过程等方向发展,其目的就是模拟智能体面对的无法完全观测环境、无法精确描述环境等问题。
说到这里就发现很多问题的起源都是一种思想、哲学,或者说是看待问题的一种思路,这种初始的观念可能会对未来产生非常长远的影响,很多学科的发展都有这个过程,一开始是哲学,然后进入逻辑学(而且逻辑学也是唯物主义特有的学科,唯心主义则没有这个学科),伴随着测试仪器和试验技术的发展,逐渐实证化,通过物理学、数学进行形式化建模,最后把抽象的概念与具象的世界进行关联,形成一种科学的研究范式。因此,提出这种观念或者思想的人常被人们推崇备至,诸如古今各种先贤哲人,这可能也是为什么很多伟大的科学家都对哲学、神学等很感兴趣的原因。
回来继续说强化学习,虽然说强化学习理论本身建立的很早,但是其发扬光大也是近10年左右的事情,尤其是AlphaGo,可以看做是近期的一个里程碑事件,复兴了这一古老的理论,其原因主要还是因为神经网络及计算机技术的发展,使得强化学习理论中非常难以计算的策略评估函数(通常采用Bellman期望方程)变得易于计算,虽然收敛的稳定性还有待提升,但是至少不会出现以前非常难以求解的困境,经过大量尝试,在各种策略型问题中,强化学习成为非常强大的一种方法,目前策略型AI的SOTA方法大都是基于强化学习理论和方法构建的,越复杂的问题越是离不开强化学习。
以上就是强化学习发展的大致脉络,作者没有去涉及数学模型和计算过程,主要尝试说一下强化学习背后的思想。
行为主义心理学和认知心理学
接下来再谈谈未来。行为主义心理学其实也是心理学发展的过去式了,目前主流的思想已经发展到了认知心理学、社会心理学以及演化心理学占据主导。认知心理学将人类的认知看成是一个信息加工的过程,包括了学习、记忆、思维、理解以及在认知过程中发生的其他行为。其实这种发展也受益于脑科学的发展,尤其是对大脑观测手段的发展,以前的行为主义心理学家没有条件从微观上了解大脑的运作过程。因此,可以发现,很多脑科学的成果逐渐引入到了智能技术之中,比如多巴胺的激励作用、注意力机制、通过情景记忆快速学习、学习如何学习的元学习等等。
前段时间强化学习之父Sutton和他的弟子Silver(AlphaGo项目的主导者之一),在一篇名为《Reward is enough》的论文中提出将智能及其相关能力理解为促进奖励最大化。该研究认为奖励足以驱动自然和人工智能领域所研究的智能行为,包括知识、学习、感知、社交智能、语言、泛化能力和模仿能力,并且研究者认为借助奖励最大化和试错经验就足以开发出具备智能能力的行为。因此,他们得出结论:强化学习将促进通用人工智能的发展。
基于强化学习的思想,该研究认为奖励足以表达各种各样的目标。智能的多种形式可以被理解为有利于对应的奖励最大化,而与每种智能形式相关的能力能够在追求奖励的过程中隐式产生。因此该研究假设所有智能及相关能力可以理解为一种假设:「奖励就足够了」。智能及其相关的能力,可以理解为智能体在其环境中的行为奖励最大化。这一假设很重要,因为如果它是正确的,那么一个奖励最大化智能体在服务于其实现目标的过程中,就可以隐式地产生与智能相关的能力,具备出色智能能力的智能体将能够「适者生存」。
关于这个观点的争议颇多,但是人类和各种动物通过与环境交互获得知识,以及不同的环境下的物种具有某种共性模式的特点还是值得深思的,这在《枪炮、病菌与钢铁》一书中也有提及,更不用说达尔文的进化论了。
成瘾机制
提到奖励机制就要聊聊脑神经科学领域的成瘾机制研究了,也是人类身上发生的一种常见行为。这里面涉及到了比较相似的一种奖励机制,人类的奖励机制-一种叫多巴胺(dopamine)的神经化合物。这也是很多哺乳类动物都存在的行为现象,即大脑里面一种原始的神经电路,它掌管情感,动机,冲动和潜意识的决策行为。这系统的效率非常高,以致自人类诞生以来到现在它们几乎没有进化过。这种原始的奖赏机制促使你做一切事情,使得你能生存并把基因传给下一代。在人类奖赏机制中最优先包括食物,性,爱,友情和新奇(novelty)。这些我们叫做‘自然强化物’(‘natural reinforcers')。
通过研究发现,一方面在我们遗传的基因中,本身有一种强大的原始奖励机制已经写入了我们的大脑,另一方面,在后天的行为中,这种机制是可以被调整的,虽然越涉及到生存与繁殖的越困难,比如食物、性爱等等。科学上的基础是神经可塑性,这也是近些年来脑神经科学方面的研究成果,过去的科学家往往认为在婴儿关键期后,大脑结构往往不发生变化。大脑有神经元细胞和神经胶质细胞构成,这些细胞互相连接,通过加强或削弱这些连接,大脑的结构可以发生改变。大体来说,各种行为习惯或者成瘾现象都逐渐证明了大脑中相似的变化,即多巴胺受体的增加或减少,通过行为刺激产生。
在成瘾现象的研究过程中,大脑的基本变化过程也逐渐清楚“敏化-脱敏-调整敏化类型-对新类型脱敏”,对身体有害的行为成瘾会导致生理上疾病或心理上的抑郁症等症状。因此,从行为本身来说无所谓好坏,但是站在对人类或社会所造成的结果来看就有善恶之分了,网瘾、化学品上瘾等都是具有很强危害性的,反之如果对一些学习、运动等上瘾却是比较不错的成瘾。
如何利用成瘾的研究成果来培养对我们比较好的瘾,去掉坏的瘾呢?笔者在这里抛砖引玉尝试着谈一下,大概是三种手段。
一是冥想,据研究表明长期冥想可以减弱大脑前额皮层的神经连接,让我们的大脑更容易恢复到较为初始的状态,敏化反应减弱,即上瘾程度变弱;
二是替代强化,一般来说大脑的机制决定了人类必须要获得足够的多巴胺才能正常活下去,否则会陷入抑郁症或者觉得人生没有意义的状态,所以如果想要改变现在的上瘾问题,不能只是戒断当前行为,还要同时培养一种新的瘾,只不过我们可以主动选择对哪种行为上瘾,这样反而可以利用这种上瘾的大脑神经机制来更好的做我们值得喜欢的事情;
三是戒断,对于不好的成瘾行为比如暴饮暴食、网络依赖、游戏依赖等,需要不断减少行为次数和强度,即减弱刺激,是否要一次性戒断完全不做要看每个人的自律程度了,但是按照大脑神经重塑的过程来说,通常一下子戒断是比较难的,逐渐减少直到戒断是可行性比较高的。
可以看出,脑神经科学的研究对于我们人类自身和智能科技的发展都非常重要,启发颇多,毕竟是千万年来进化的成果,有效性是得到了测试验证的,非常值得深入研究和借鉴继承。
一点关于强化学习的粗浅认识,班门弄斧,如果觉得还行,请给咱们支持一下吧,点赞、分享、收藏各种走起,在此多谢啦!