深度学习瓶颈到来时，Yoshua Bengio有什么新打算?（附NeurIPS演讲）

作者 | 杨晓凡 编辑 | 唐里

我们都知道，深度学习的三驾马车获得了 2018 年的图灵奖，这是对深度学习的技术成功以及三人贡献的最佳肯定。最近几年里，Geoffrey Hinton 带来了知识蒸馏和胶囊网络，Yann LeCun 在继续研究 CV 机器人的同时，也坚持和 Gary Marcus 打网络口水仗。

那么 Yoshua Bengio 在做什么呢？最近 IEEE Spectrum 电子杂志找到 Bengio 对他进行了一次采访（Yann LeCun 在推特上转发了这篇演讲，而且大段引述了采访中的 Bengio 的原话，表达他对 Bengio 的赞同）。

Bengio 也随后在 NeurIPS 2019 的全体演讲中更深入、更细致地介绍了他的想法和现阶段的研究成果，演讲主题为《From System 1 Deep Learning to System 2 Deep Learning》，内容简介与 PPT 下载见文末。

AI 科技评论首先把 IEEE Spectrum 电子杂志采访编译如下。

深度学习和现状和限制

记者：现在有很多人都在讨论深度学习的限制，你有什么看法？

Bengio：很多面向大众的信息渠道都不理解学术人员做科研的方式，不管是针对 AI 领域还是其他学科，其实，我们研究和理解当前的理论和方法的不足之处，是为了能探索我们的智力工具之外的更大的空间。深度学习的研究人员们想要找到深度学习的效果并不如我们预想的那么好的场景，这样我们就可以知道还缺了什么、还要探索哪些新方向。

不幸的是这个过程被 Gary Marcus 这样的人找茬了，然后从他的嘴里说出来就变成了「你们看，我就说深度学习不行吧」。不管他怎么说，像我这样的研究人员们其实都在想方设法拓展深度学习的能力范围。当我说到 AI 系统需要有能力理解因果关系的时候，我的意思也不是说要用因果关系把深度学习推翻，我想要做的是给我们当前的工具箱里再添一些新东西。

作为一个科学家，对我来说真正重要的是还需要探索哪些新方向才能解决问题。谁对谁错、谁站了谁的队这种事情我并不关心。

（Gary Marcus 后来对此解释道：「在 Yoshua 的话里我好像是一个完全反对深度学习的人，实际上我是混合派，我还是看好深度学习的，但我认为它应该和其它的方法结合使用。深度学习是一个挺不错的工具，但它肯定不是唯一的工具。」）

记者：你如何评价深度学习的当前状态？

Bengio：过去二十多年里我们对深度学习的研究进度可以这样评价：直到今天，这些系统能达到的智慧程度都没法和一个 2 岁的小孩相提并论。不过，我们的算法在感知任务里可能能达到一些更低级的动物的水平。我们现在也有越来越多的工具可以帮助一个系统探索它所在的环境，所以这些系统的智力水平也在慢慢地逐步提升。

如今有一个主要的争论是，高层次的认知是由哪些基础组件构成的？我们猜测因果关系是其中一个组件，另外还有推理、规划、想象力、归因。在传统 AI 中，尝试解决这些问题的方法是逻辑和符号。有人提出我们现在也可以用传统 AI 的方式来做，不过可能要做一些改进。

也有一些人和我有一样的想法，我们觉得应该在过去这些年设计的深度学习工具的基础上实现这些功能，这和人类做推理的方式更相似；而人类做推理的方式是和纯粹的逻辑系统、基于搜索的执行方式完全不同的。

从人类大脑得到启发的计算模式的破晓时分

记者：我们要如何创造和人类的推理方式类似的功能呢？

Bengio：注意力机制让我们可以把计算能力集中在某几个物体、某几个计算上。人类的这种工作方式是「有意识的处理过程」中的尤其重要的一个部分。当人有意识地关注某件事时，你的注意力在很少的几个元素上，可能就只是某个念头，然后会转向下一个念头。这种过程和标准的神经网络完全不同，神经网络的处理方式是大规模的并行化处理。在深入学习引入注意力机制之后，我们在计算机视觉、翻译、存储方面都有很大的进步，而我觉得这只不过是仿大脑的这种新的计算形式的开始而已。

需要说明的是，我们距离解决这些问题还远，但我们手里已经有不少工具，已经可以动起来了。我也没觉得这会很容易。2017 年的时候我写过一篇论文《The Consciousness Prior》（意识先验，https://arxiv.org/abs/1709.08568），里面就提出了这个问题。我有好几个学生就在研究这个问题，我也知道这需要付出长期的努力。

记者：人类智慧中还有哪些方面是你希望能在 AI 中重现的？

Bengio：我们对神经网络的能力有过一些想象，在其中，推理能力、记忆能力、想象力其实是人脑思考这同一件事的三个不同的部分。你假想自己在过去或者未来做什么事、产生什么后果，随着你假想的时间倒流或者前进，你实际上在做推理。如果你预计到未来会发生什么不好的事情，你会现在就采取一些措施改变事情发生的轨迹，这就是规划了。记忆力也用到了，因为你需要回忆你知道的信息来做出决策。你会选出当前的重要的事情，以及选出过去的相关的事情。

注意力是其中的一个关键的基础功能。比方说我正在把一本书翻译成另外一个语言。每翻译一个词，我需要仔细阅读的是书里的很小很小一部分内容。注意力就可以帮我们抛弃很多不相关的细节，关注真正重要的东西。能够挑出相关的、重要的元素，这就是注意力的作用。

记者：这种想法很棒，但它要怎么用在机器学习里呢？

Bengio：我们不需要告诉神经网络要把注意力放在什么东西上，这正是神经网络的魅力所在。它能够学习，它能自己学会要给一组元素里的每一个分配多少注意、多少权重。

学习如何学习

记者：最近你在因果关系方面的研究和这些之间有没有什么关系？

Bengio：人类在推理时用到的高层次概念，在我看来很可能是一些带有因果关系的变量。人类做推理并不是基于像素这种细枝末节的元素的，而是门、把手、门开着、门关了这样的概念。因果关系在机器学习的下一步发展中非常重要。

而且因果关系也和做深度学习的人都关心的另一个话题有关。人类有一种系统性泛化的能力，可以把已经知道的概念推广到更多的事情上，不同的概念用新的方式融合之后可以得到全新的东西。今天的机器学习还做不到这一点。当前的机器学习都是在某个特定的数据集上做训练，在一种情境下训练模型，然后在另一种情境（比如另一个国家里）使用模型，这样经常会带来问题。我们需要泛化能力，需要迁移学习。我们面前的一个重大挑战就是把模型迁移到一个新环境以后，如何保证它能继续正常工作、或者能快速适应。

记者：这种适应能力的关键是什么？

Bengio：元学习是近期的一个热门话题，就是「学习如何学习」。我在 1991 年的时候也写论文讨论过这个概念，不过一直到最近几年我们才终于有了足够的计算能力可以实现这种东西；它们需要消耗很多的计算能力。

它的核心思想是，为了能够泛化到一个新的环境，就需要练习如何泛化到新环境。这种思想很简单，其实小孩就一直是这样的，从家里的一个房间走到另一个房间，环境不是固定的，一直在改变，小孩就逐渐学会了适应。为了能高效地适应，小孩还需要用到他们以前学到的知识。我们对这种能力的理解正在逐渐加深，也在尝试构建工具来复制这种能力。

有一些声音批评深度学习需要大量的数据，如果想要在一个任务上训练深度学习模型的话确实是这样的。而小孩只需要很少的数据就可以学习，他们能重复利用以前学习过的东西。但更重要的是，他们利用了适应、泛化的能力。

大规模工业应用还早

记者：我们能很快在真实世界看到这些想法吗？

Bengio：还不行。我刚才谈到的这些都是非常基础的科学研究，都是在非常简单的问题上做验证。不用觉得遗憾，现在我们的进度就是只到这里。我们现在先检验这些想法，然后不断提出新的假说。它们都没办法很快就用在工业界。

不过有两个来自工业界的、对他们造成实际困扰的限制是这些研究可以起到作用的。第一个是，构建一些对环境中的变化更鲁棒的系统；第二，如何构建自然语言处理系统、对话系统、虚拟助手？目前的这些基于深度学习技术、达成了非常高的表现的系统的问题在于，虽然它们都是用海量数据训练出来的，但是它们并不完全理解它们说的话是什么意思。Gary Marcus 这样的人会跳出来说：「这不就说明了深度学习不行吗」，而我这样的人就会说：「这很有意思，我们来解决这个挑战吧。」

物理、语言和常识

记者：有没有办法把聊天机器人做得更好？

Bengio：最近有个点子叫做「有依据的语言学习」（grounded language learning），吸引了很多研究人员的注意力。它的核心是提出 AI 系统不应该仅仅通过文本学习，它应该同时学习（认识）这个世界的运行方式以及学习如何用语言描述世界。我们可以问问自己，如果一个小孩只愿意从书本上了解世界，我们会觉得他能对世界建立起完整的了解吗？我觉得是很难的。

这和「有意识知识」和「无意识知识」之间也有一些关系，「无意识知识」就是那些我们知道但是讲不出来的东西。一个典型的例子是物理直觉，一个两岁的小孩就能建立起物理规律的直觉，不需要学习牛顿的万有引力定律就有重力的概念。现在已经有一些研究人员在尝试构建能和环境互动、探索基本物理规律的系统。

记者：基本物理规律为什么能对对话系统起到帮助呢？

Bengio：对话系统的问题在于，它们通常都是不了解提到的那个词的复杂性的。比如有这样一句话，「Jim 想把台灯装进他的皮箱里，但是它太大了。」我们人类有常识，明白「太大了会导致装不进去」的只能是台灯，就能确认「它」的指代，能正确理解这个句子。这些知识的确有办法用语言描述，但对人类来说这些常识，比如一个箱子一般是什么尺寸，是不会总挂在嘴边的。

我们希望语言理解系统也能对这个世界有更多的了解。目前来说，AI 研究人员们都在抄近道，但抄近道是没法真正解决问题的，AI 系统最终还是需要建立起一个世界运行的模型。

（采访完）

Yoshua Bengio NeurIPS 2019 演讲

加拿大当地时间 12 月 11 日下午，Yoshua Bengio 在 NeurIPS 2019 现场进行演讲。清华大学唐杰老师对 Bengio 演讲内容做了转述总结，雷锋网 AI 科技评论摘录如下。

《From System 1 Deep Learning to System 2 Deep Learning》

Yoshua 认为，AI 作为本世纪的惊人进步，仅仅依靠增加数据集、模型大小、电脑速度是否就足够了呢？实际上 AI 距真正的人工智能还差的很远！

Yoshua 的第一个观点，是指人的认知系统包含两个子系统（这是认知理论中大家共识的观点）：System1 直觉系统，主要负责快速、无意识、非语言的认知，这是目前深度学习主要做的事情；System2 是逻辑分析系统，是有意识的、带逻辑、规划、推理以及可以语言表达的系统，这是未来深度学习需要着重考虑的。当然 Yoshua 也提到计算机作为 Agent 实现 AI，需要从计算机角度考虑，比如更好的模型和知识搜索等。

对于如何用深度学习来实现 System2？

Yoshua 认为，对于计算机来说，最关键的是处理数据分布中的变化。对于 System 2 来说，基本的要素包括：注意力和意识。注意力（Attention）实际在目前的深度学习模型中已经有大量的实现和探讨，比如 GAT（图注意力机制）等；意识这部分则比较难，其实意识最关键的是定义到怎样的边界。Yoshua 提到意识先验可以使用稀疏因子图模型来实现，这是一个思路，实现了因果关系。从整体的理论框架方面可以考虑元学习（Meta-learning）、局部修正假设（localized change hypothesis）、因果发现（causal discovery），最后架构方面可以考虑如何学习不同对象的操作。

对于处理数据分布，传统机器学习都是基于 IID（independent and identically distributed），也就是独立同分布的假设，但实际现状是很多真实场景下我们感兴趣的数据往往是出现次数非常少的数据，也就是我们在处理时需要关注更多的是 OOD（out of distribution），也就是在数据中出现较少的分布，当然这需要我们在机器学习算法中有新的数据假设。尤其是从 Agent 的角度来考虑，需要考虑哪些是影响数据分布变化的因素，以及不同分布的可组合性等方法如何对现在的 IID 和 OOD 进行泛化。相对传统的符号 AI 系统，当前的 AI 需要更多具有泛化能力的机器学习能力。

注意力机制是最近几年深度学习发展的一个重要技术，最近几年在很多系统中都有大量应用，注意力机制可以看做实现意识的第一步，在人类大脑中有自上而下的注意力和自下而上的注意力。

从认知角度来说，意识是一个很复杂的机制，Global Workspace Theory 是 1988 年 Baars 等人提出的一个认知神经理论，其核心思想就是意识内容在各种不同认知过程中全局存在，包括 Attention、 Evaluation、 Memory and verbal report。这些概念听起来有点抽象，后来 Dehaene、Changeux and colleagues 等人提出了一个 Global Workspace Architecture 的实现模型。Global workspace theory 和前面介绍的 System2 很相似，其他和意识相关的认知理论还包括 Multiple drafts theory，这是 Daniel Dennett 在 1991 年提出的一个理论。

机器学习和意识模型相结合的关键是如何在机器学习中实现意识，或者说意识相关的理论/模型如何帮助机器学习。比如可以基于意识理论构造一些假设，然后用机器学习的方法来验证这些假设。当然从人的角度来看意识，高层次的表示可以说是语言，这需要把人的两个认知系统 System1 和 System2 有机地结合起来，也就是说把低层次的表示和高层次的决策结合起来。

Yoshua 还提到了前意识/意识先验。具体可以使用稀疏因子图，稀疏因子图不是一个新的事，基本思路是图模型的统一模型，因子图的好处是可以把有向图和无向图都统一起来。稀疏因子图可以用来学习变量之间的因果关系，从而构造变量之间的因果关系（找到真正的因果关系，而不是给不同变量给一个权重，这是为什么考虑稀疏的原因）。

元学习（学习学习的模型）是可能实现机器学习到 OOD 和模型快速迁移的一个办法。说到 OOD，究其原因是有行为的变化，或者是用户行为对于数据的干预。元学习的知识表示可以有效帮助克服 OOD，比如通过元迁移学习到变量之间的因果关系，这里的挑战是如何学习到未知干预变量的因果特性。最后是如何学习样本的可能操作，类似自动机器学习，但这里是在对象的不同操作层面。