前言
大家对智能的要求通常是希望可以比较有效的去解决在人类看起来不太容易的问题,当具备了解决困难问题的能力的时候,这种机器或者软件就可以认为是具有一定智能的。可是解决问题的能力不一定是天生就具备的,往往需要针对特定的问题去组织和优化自己的解决方法,这个过程人类通常叫做学习。
当今人工智能比较吸引人的一点就是学习的过程可以非常自动化,即人类手里只有数据或者产生数据的环境,然后把数据给模型接上,模型自己就可以去从中寻找规律了,当模型的结构特点和拟合能力比较适合解决这类问题的时候,数据量又是足够的,模型又能够通过训练在一定性能上收敛到一个比较稳定的状态,那么解决这类问题的模型就产生了。
目前的问题主要是,这个模型是黑盒的,内部结构为什么能解决问题不知道,所以就有未知的风险,经验上也还没有获得足够的统计数据来分析模型的可靠性,所以人工智能走向应用还有点不太顺利。
神经网络这个代表性的人工智能方法,在结构上和学习机制上正在与人类的大脑越来越接近,脑科学的研究在数学化的过程中也为人工智能提供了诸多借鉴,今天就来聊一聊人类的学习和AI的学习。
人的大脑如何学习
关于人类学习机制的研究从早期的心理学逐渐发展到神经科学,涉及行为心理学、认知心理学,到现在的神经心理学,可以发现,脑科学的神经生物学与心理学的研究已呈现交叉融合之势。
从历史上来看人类的学习能力由来已久,可以说人类发展的历史就是一部学习的历史,也叫做科技进步的历史,从科技史上知识或技能的发展上可以明显的看到这一点。学习是人类从没停止过的事情,在微观上来说对一个具体知识或技艺的学习总是伴随着确定目的、了解情况、思考方法、尝试探索、总结记忆的过程。
学习这个词在我国最早可以追溯到《论语》中的“学而时习之,不亦说乎”。在科技发展的过程中,人类总是在实践中寻找世界运行的规律,所以数学、天文学和医学这些与生存联系紧密的方向在古代文明中发展的都非常地好。而且这些知识和技艺代代相传,直至今日,正如牛顿所说,科学的历史虽然只是人类历史的一小部分,但却是本质的部分,是唯一能够解释人类社会进步的那一部分。
教育学领域的一种说法把学习的过程概括为(1)动机阶段;(2)领会阶段;(3)获得阶段;(4)保持阶段;(5)回忆阶段;(6)概括阶段;(7)动作阶段,(8)反馈阶段。这里面明确了学习的一些内外部条件,比如内部要有学习的目标和动力,动力可能来源于兴趣或者某种外力的驱使,好像高考也算是一种,归结起来外力大都来自于生存的压力。外部要有练习和反馈的环境,练习好理解一些,但是高效率的练习通常需要聚焦和针对性的训练手段。
我们来看看这个反馈,通常我们自学比较困难,就是因为缺乏反馈,学了一阵子,搞不清楚学习的目标,没有一个有效的反馈机制,告诉我们做的好不好或者达没达到目的,就让学习变得比较困难了。因此所谓某方面的天才就是有一种强烈的自我反馈能力,在一件事情上做的好不好非常较真,而且能够基于一种高标准来严格要求自己,久而久之就比绝大部分人做的好很多,让人觉得不可思议。
心理学方面,在行为主义上的说法是学习是一种外部刺激引起的反应,这种反应所产生的变化要能够从外部可以观察和测量。而认知心理学上,把学习看成是一种内在的变化,未必与外部可观测的变化一致。按照现在对大脑的研究来看,两者可以综合一下,学习主要是身体接受外部刺激后的一种变化过程,其信息接收在身体,而信息处理在大脑,最终反映在大脑、神经系统,甚至是身体结构的某种变化,是否可以观测取决于观测技术的水平,比如大脑的内部信号变化如果可以观测,那么就和行为主义说的差不多,但是如果现有技术水平还观测不到这种变化,也不能简单否认大脑的学习过程而只认可身体的某种反映变化。
脑科学领域,发现了很多学习的规律,非常有意思。在脑科学看来,学习本质上是“大脑肌肉”在工作,这个“肌肉”专门用于处理信息,比如加工、存储、传递等。大脑中信息处理的主要区域有:内嗅皮层,它类似于某种过滤器,专门过滤涌入大脑的信息;海马,是构筑新记忆的地方;还有新皮层,某种信息一旦被打上“储存”的标记,就会被存放到这里,这是储存我们显意识记忆的地方。
大家经常听说大脑主要是神经元连接起来组成的,那么学习和记忆的过程就是在调动不同的神经元组合产生各种各样的输出。比如回忆的过程在大脑之中就好像点亮了一片神经元,通过连接信号在脑海中产生了一个图像或者动态的场景。与此相关的,学习的过程就是在强化与之相关区域神经元连接的突触和通路,不断的训练过程中,突触会被加厚,信号的传递速度也会被加快,直观的感受就是把一项技能训练成为下意识反应,比如开车、打球等等。
大脑学习语言会用到一个语言区,学习是威尔尼克区和书写发音是布洛卡区,如果大脑发育时学习多种语言,即使将来因为不用而遗忘也可以很快想起来,比如常年在外的人回到故乡,很快就能重拾乡音,但是外地人来了却要很久才能学会当地方言,神经学观测发现从小学习多种语言的人在不同语言切换时,语言脑区有很多重叠。
睡眠是一种有效学习的方式,不管是背诵还是推理,大脑在睡眠中依然运转,会加强一些神经元,也会减弱一些神经元,最终形成对于大脑认为更重要的信息进行整理,不重要的会被遗忘,最经典的例子就是门捷列夫的元素周期表,睡梦中的成果。
遗忘这件事情其实很重要,很好理解,大脑毕竟是生理上有局限性的,信息不可能无限存储,就好像超体中那样激活全部脑区,会出现非常严重的问题,科学家用老鼠做实验持续高能的刺激鼠脑,会出现过度兴奋导致神经分裂,终究还是受不了的。所以不要苛求全部记住,让自己的大脑量力而为。
而且现在脑科学的研究发现了人类学习有很多非常有趣的规律,并不一定是高强度的持续学习效果最好,很多小技巧。记忆方面有很多研究成果,比如联想记忆,因为记忆在大脑中存储的方式是通过多个神经元来储存,唤醒记忆时从观测的角度会点亮一个区域的神经元,那么如果把关键信息存放在一个图像或者场景之中,就会比较容易想起来。
从另外一个方面就提醒大家不要伤害自己的大脑,毕竟是自己处理信息的核心器官。一些小习惯供参考,作者也没有去亲身验证过,不过觉得说的有些道理,仅供参考吧,专业建议还是要咨询专业的医生才行。比如不要在过于黑暗的地方长期呆着,容易抑郁,因为这可能会对大脑有负面的影响,反过来适当的阳光照射有利于大脑活跃。不要阅读太多负面消息,什么谁谁谁又干什么坏事了,看多了会让人心理受到太多刺激,容易出问题。不要失去社交,有研究说长期孤立不做社交大脑容易抑郁,甚至还容易中风。太多电子屏幕容易让人失去处理复杂事务的能力。
吃太多糖容易使得大脑营养不良,虽然很多人喜欢吃甜食减压,不过最好每天适量。不吃早餐、不锻炼,对于大脑活跃和获得充足营养都是不太友好的行为。反过来说,运动可以给大脑带来充足氧气、分泌荷尔蒙等良性的刺激,所以不要太偷懒才好。最后大家都知道,睡眠很重要,严重不足会对长期记忆产生不良影响,好好睡觉很重要。
说的远了,总之综合很多经验来看,学习对于人类是一种利用大脑对信息进行反馈优化的过程,而且人类的学习机制需要快速的反馈才能够获得刺激。很多上瘾的机制就是因为这种反馈机制非常给力,所以让人的大脑越来越渴求这种行动。如果善于利用这种规律就可以让很多通常认为枯燥的事情变得容易,比如数学、编程等,即现在经常说的游戏化设计。鹅厂非常善于干这个,会让你觉得用他的产品都有种王者农药的味道,也算是很厉害了。
AI如何学习
AI的学习搞得非常火热,学习本身也一直被认为是AI的重要特征之一,比如机器学习、深度学习、强化学习、迁移学习、小样本学习、终身学习等等各种学习的方法思路百花齐放,不难看出,能够具备持续提升能力的AI是行业的共同追求。
这当然是与AI在做的核心算法模型有关,因为算法模型在追求的就是对于数据或者现象背后规律的拟合,然后再用这种规律去指导新的问题,即所谓的泛化或预测。深度学习的兴起与AI学习的训练算法也有很大关系,即梯度下降算法,这种算法让神经网络模型可以根据输出结果与目标之间的差距进行反馈优化,很有点人类大脑学习机制的意思了。
如果要从更早说起,控制论所描述的也是一种反馈控制机制,数学中的很多识别和预测算法也是基于误差在做优化,专门的最优化理论也是历史悠久,大概可以追溯到20世纪40年代,现在已经有动态规划、博弈论、决策论、排队论等等众多方向。很多理论近年来与神经网络结合后很多又焕发了新的活力,比如强化学习方法。
说到这儿可以发现,AI的学习其实是一种对现象或数据集中的规律做建模的过程,这个学习又需要专门的训练方法来完成,即所谓的学习算法,比如随机梯度下降、ADAM(自适应动量估计)等等。不过呢,也有很多人在考虑更高效的学习方法,比如大规模预训练模型、元学习等,不过呢,也都需要学习算法来做针对任务目标的调整优化。而且这里面还涉及一个很核心的问题,就是学习结果在预期任务中的表现(泛化能力)的评估,因为可以说学习的根本目标是为了泛化。这种评估目前理论上还有很多工作要做,远没有发展完善。
针对学习的反馈优化这个事情呢,强化学习之父Sutton和他的弟子Sliver(AlphaGo的主要创造者之一)合作了一篇文章《Reward is enough》,基于该研究的假设,通用智能可以理解为通过在单一复杂的环境中最大化一个特殊奖励来实现。例如,自然智能在其整个生命周期中都面向从与自然世界的互动中产生的连续经验流。动物的经验流足够丰富和多样,它可能需要灵活的能力来实现各种各样的子目标(例如觅食、战斗、逃跑等),以便成功地最大化其整体奖励(例如饥饿或繁殖)。类似地,如果人工智能体的经验流足够丰富,那么单一目标(例如电池寿命或生存)可能隐含地需要实现同样广泛的子目标的能力,因此奖励最大化应该足以产生一种通用人工智能。
主要意思就是超越人类的通用人工智能(AGI)借助奖励最大化和试错学习就可以开发出来了,比如人类所具有的知识、学习、感知、社交、语言、泛化能力及模仿能力等。引起颇大争议。
支持的人觉得确实如此,自然中各种生命的智能发展基本都是在与环境的反馈之中学习进化,那么AI也可以通过这个机制获得智能,即能够指导行为达到目标的模型。
反对的人则觉得没什么新意,因为构建学习过程的关键问题没有明确的实现方式,比如奖励函数设定、泛化能力的保证等等,几乎与控制论说的差不多。
不过的,基本上大家还是同意的,那就是反馈是学习的关键,学习是智能的关键,因为智能总是被用来描述很复杂难以处理的问题,虽然这些问题经常在被解决之后就不叫智能了。
不过呢,这倒也可以启发我们用一种方式来学习现实中复杂的问题,也是目前的一个热点方向,即开放式学习。如果想要AI解决一个真实的复杂问题,那么就让AI去面对直接面对这个问题,从这个问题中自己构造奖励函数,自己寻找反馈,终将优化出有效的模型。只不过这个过程需要人类来一步步的辅导完成。不知道这算不算是造物主的工作了呢。
镜子中的自己,AI和人的学习
聊到这儿基本上可以说,学习就是AI的核心能力,或许没有之一。而伴随着很多秘密的揭开,人类自以为傲的智慧或许会变得毫无新意,这不是一件让人高兴的事情。但是,这对于 AI 研究人员来说可能会很兴奋,因为弄清楚大脑如何近似反向传播,反过来又可以改善 AI系统的学习方式。只不过,这个科研成果会带来什么,目前看起来更像是潘多拉的盒子。
而且,前段时间看到一个AI模型没有免费午餐的研究成果,大概意思是每个模型都会因为追求对某一种目标的优化而丧失对其他一些目标的拟合能力。说人话就是不会有一种模型搞定所有的任务。从人类的状态来看也好理解,既然不能要求顶尖的数学家成为NBA的超级巨星。那么是不是也不一定做一个大模型,来完成所有的任务呢?
最后问大家一个很缥缈的问题,生命是否是一个模型?模型是否会表现的像生命?