Transformers 如何模仿大脑的某些部分

来源：ScienceAI

本文约2500字，建议阅读7分钟

本文将演示如何通过阈值调优来提高模型的性能。

了解大脑如何组织和访问空间信息「我们在哪里」，「拐角处有什么」，「如何到达那里」，这仍然是一项艰巨的挑战。该过程涉及从数百亿个神经元中调用整个记忆网络和存储的空间数据，每个神经元都连接到数千个其他神经元。

神经科学家已经确定了关键元素，例如网格细胞、映射位置的神经元。但更深入将被证明是棘手的：并不是说研究人员可以移除或研究人类灰质的切片来观察基于位置的图像、声音和气味记忆是如何流动并相互连接的。

人工智能提供了另一种方式。多年来，神经科学家利用多种类型的神经网络——为大多数深度学习应用程序提供动力的引擎——来模拟大脑中神经元的放电。

在最近的工作中，研究人员表明，海马体是一种对记忆至关重要的大脑结构，基本上是一种特殊的神经网络，被称为 Transformer。他们的新模型以与大脑内部运作相似的方式跟踪空间信息。他们已经看到了非凡的成功。

「我们知道这些大脑模型相当于 Transformer，这一事实意味着我们的模型表现得更好，更容易训练。」来自斯坦福大学的认知神经科学家 James Whittington 说。

Whittington 和其他人的研究表明，Transformer 可以极大地提高神经网络模型模拟网格细胞和大脑其他部分进行的各种计算的能力。Whittington 说，这样的模型可以推动我们对人工神经网络如何工作的理解，甚至更有可能推动我们对大脑中如何进行计算的理解。

「我们并不是要重建大脑。」谷歌大脑的计算机科学家 David Ha 说，他也在研究 Transformer 模型，「但我们能否创造一种机制来完成大脑所做的事情？」

Transformers 于五年前首次出现，是人工智能处理语言的一种新方式。它们是 BERT 和 GPT-3 等引人注目的补句程序中的秘密武器，可以生成令人信服的歌词、创作莎士比亚十四行诗并模仿客户服务代表。

Transformers 使用一种称为自我注意的机制工作，其中每个输入——一个单词、一个像素、一个序列中的数字——总是连接到每个其他输入。（其他神经网络仅将输入连接到某些其他输入。）但是，虽然转换器是为语言任务而设计的，但它们后来在其他任务上表现出色，例如对图像进行分类——现在是大脑建模。

2020 年，由奥地利林茨约翰内斯·开普勒大学的计算机科学家 Sepp Hochreiter 领导的一个小组使用 Transformer 改造了一个强大的、长期存在的记忆检索模型，称为 Hopfield 网络。40 年前由普林斯顿物理学家 John Hopfield 首次提出，这些网络遵循一般规则：同时活跃的神经元彼此建立牢固的联系。

Hochreiter 和他的合作者指出，研究人员一直在寻找更好的记忆检索模型，他们看到了 Hopfield 网络如何检索记忆与转换器如何执行注意力之间的联系。他们升级了 Hopfield 网络，基本上把它变成了一个Transformer。Whittington 说，由于更有效的连接，这种变化使模型能够存储和检索更多的记忆。Hopfield 本人与 MIT-IBM Watson AI 实验室的 Dmitry Krotov 一起证明了基于Transformer的 Hopfield 网络在生物学上是合理的。

然后，今年早些时候，Whittington 和 Behrens 帮助进一步调整了 Hochreiter 的方法，修改了转换器，以便不再将记忆视为线性序列——就像句子中的一串单词——而是将它们编码为高维空间中的坐标。正如研究人员所说，这种「扭曲」进一步提高了模型在神经科学任务上的表现。他们还表明，该模型在数学上等同于神经科学家在 fMRI 扫描中看到的网格细胞放电模式模型。

伦敦大学学院的神经科学家 Caswell Barry 说：「网格细胞具有这种令人兴奋、美丽、规则的结构，并且具有不太可能随机出现的引人注目的图案。」这项新工作展示了 Transformer 如何准确复制在海马体中观察到的那些模式。「他们认识到，Transformer 可以根据以前的状态以及它的移动方式来确定它的位置，并且以一种与传统网格单元模型相结合的方式。」

最近的其他研究表明，Transformers 也可以促进我们对其他大脑功能的理解。去年，麻省理工学院的计算神经科学家 Martin Schrimpf 分析了 43 种不同的神经网络模型，看看它们对 fMRI 和皮层脑电图报告的人类神经活动测量结果的预测效果如何。他发现，Transformers 是目前领先的、最先进的神经网络，几乎可以预测成像中发现的所有变化。

Ha 和计算机科学家 Yujin Tang 最近设计了一个模型，该模型可以有意地通过 Transformer 以随机、无序的方式发送大量数据，模仿人体如何将感官观察传递到大脑。他们的 Transformer，就像我们的大脑一样，可以成功地处理无序的信息流。

「神经网络天生就接受特定的输入。」Tang 说。但在现实生活中，数据集往往变化很快，大多数 AI 没有办法调整。「我们想试验一种可以很快适应的架构。」

尽管有这些进步的迹象，Behrens 认为 Transformers 只是迈向准确的大脑模型的一步，而不是探索的终点。「我在这里必须是一个怀疑的神经科学家。」他说，「例如，我不认为 Transformers 最终会成为我们在大脑中思考语言的方式，即使它们拥有当前最好的句子模型。」

「这是预测我在哪里以及接下来会看到什么的最有效的基础吗？老实说，现在说还为时过早。」Barry说。

Schrimpf 也指出，即使是表现最好的转换器也是有限的，例如，在单词和短语方面表现良好，但在讲故事等更大规模的语言任务中却不适用。

「我的感觉是，这种架构，这种 Transformer，让你进入正确的空间来理解大脑的结构，并且可以通过训练得到改善。」Schrimpf 说，「这是一个很好的方向，但这个领域超级复杂。」

相关报道：https://www.quantamagazine.org/how-ai-Transformers-mimic-parts-of-the-brain-20220912/

编辑：黄继彦

神经网络其他

0 人点赞