语言加工的神经计算模型

在Bill Watterson 1993年写的一篇报纸漫画中（Calvin and Hobbes），男孩Calvin对他的朋友Hobbes说：“奇怪的语言（Verbing weirds language）”。事实是，Hobbes (一只由Calvin的想象力制作成动画的毛绒老虎)理解这句话没有问题，读者当然也能理解这句话（这句话将形容词词做动词用了）。语言使用者经常处理人类语言的抽象问题，无论是将形容词变成动词（如连环画中的使用），是从陈述句中提出问题（比如：“你敢打我”是陈述句，但可以用疑问语气变成问句），还是从“昨天我在睡衣里看到一头大象”这句话中理解到双重含义。从实际使用看，人类的语言能力依赖于一系列复杂的抽象功能来理解这些模式：它们从语音特征到句法范畴都是抽象的。与其他认知能力一样，这些语言抽象功能在语言使用者的具体实践中被实例化。

自20世纪60年代以来，语言知识的生物学基础一直是生成语言学的支柱。然而，在语言学的抽象结构和人脑的具体属性之间进行映射之间面临着巨大的挑战。Embick & Poeppel(2015)讨论了将语言学植根于神经生物学的两个具体障碍。第一个问题涉及本体论，即语言学理论与神经科学理论中讨论的实体：名词如何与神经元相关，或者放电模式如何与句法依赖相关？简单地从一个域中的基元（primative，基本单元）到另一个域中的基元之间划一条连接线是不可信的。第二个障碍与粒度有关：将语言抽象与神经生物学特性联系起来的“正确”基元是什么？有没有专门用于计算名词短语的特定神经元，或者短语类别是否来自不同细胞组合之间的相互作用？名词短语是与神经元功能相联系的合适单位吗？还是应该与特定的结构相联系，或者与更一般的概念(如合并，merge)相联系？该领域尚未就如何解决这些问题达成共识，这些问题统称为语言学和神经生物学之间的映射问题（Mapping Problem）。

这项研究回顾了语言研究中的如何映射研究问题的方法，这是一种依赖于语言加工的计算模型的方法。这些模型能够探讨人类语言的特性如何与实时加工相关，可能的加工过程以及这些过程如何影响可观察到的神经信号。因此，这种方法既与大脑的具体属性有关，也与人类语言研究中的现实问题有关。本文发表在Annual Review of Linguistics杂志。

曾做过一些语言相关的文章解读，欢迎浏览以下链接

语言功能网络在脑区水平的发育轨迹

Nature子刊：语言、心智和脑

语音韵律及其神经基础

Science：鸣唱学习和口语的演化

PNAS：婴儿大脑中语言的正交神经编码

语前婴儿与成人相似的语音统计学习模式：来自神经夹带的证据

Nature子刊：脑卒中后失语症语言恢复的神经计算基础

脑损伤患者基于语言任务的功能磁共振成像与静息态功能磁共振成像对躯体运动网络的识别

BRAIN：失语症词汇产出的白质结构连通性：DSI研究

Science advances：新生儿的言语知觉

布洛卡区域的功能复杂性及功能分离

近红外超扫描研究：人与人之间口头交流的跨脑神经机制

幻听中语言网络、听觉网络和记忆网络的交互障碍

Science：从个人口语到社交世界:人类口语的神经处理

Current Biology：手语和口语共享部分概念表征

Science：句法和语义组合的神经基础

Science：语言在单字层面以上的神经处理

PNAS：与语言相关的脑网络中特定频率的有向连接

音位：不仅仅是词汇获取

10Hz tACS对词语语音决策中前额叶皮层的影响

Psychological Science:自上而下的词汇加工影响着早期言语

PLOS Biology：语言控制的功能连接组

BRAIN:遗传性言语障碍中的背侧语言通路异常

PNAS:双语习得对大脑结构及功能可塑性的影响

ERP研究：在语言理解过程中追踪听众的知识状态

对前语言期婴儿心理理论相关的颞顶联合区的近红外研究

ERP研究：婴儿已具有人类特有的编码语音嵌套关系的能力

PPI研究：颞叶癫痫的左颞叶语言网络功能连接

ERP研究：母语促进视觉意识的理解

PNAS:两个一起学更好：婴儿看视频同样可以学语言的ERP证据

HBM:阅读中语音产生期间的脑功能近红外光谱研究

PNAS脑电研究：说话人的注视增加婴儿和成人大脑之间的信息偶联

Science: 位于人类听觉皮层的语调编码

语言网络的短期迅速重组

1.范围

如上所述，本文的关键要素是计算。区分计算机的一般科学用途和作为认知科学基础的心理计算理论是很有帮助的。虽然计算机可以用来推断语言学理论的结果或分析神经信号，但这些类型的计算并不是这篇综述的重点。相反，作者关注的是在回答“个人如何使用语言”这一问题时起到解释作用的计算和表征方法。多年来，计算主义一直是语言学家和脑科学家的交汇点。

本文专门考虑匹配时间序列大脑数据的神经计算模型，以阐明语言学家感兴趣的问题。它更新了Stowe et al. (2005) 使用大脑特定区域语言加工的计算模型。作者考虑了已经在 Brennan (2016) 中评论过的涉及自然文本刺激的神经语言学方法，并且触及了 Murphy et al.（2018）介绍的基于分类器的大脑语言解码方法。

目前的综述搁置了几个密切相关的领域。一种是根植于研究传统的失语症，它通常在上面提到的意义上进行计算的。另一个密切相关的领域是计算心理语言学。还有使用反映神经振荡的信号的研究，同时认识到当与这篇综述中考虑的那种显式计算模型相结合时，该研究方向的前景正如 Poeppel（2012）所强调的那样，科学进步取决于我们明确地将理论化的语言概念（如短语结构）和可观察的神经生物学现象（如大脑中的血流）联系起来的能力。理论和数据之间的这些联系不可避免地反映了关于认知加工的额外假设。

2. 预测下一个单词或符号

一种关于大脑的主流观点将其解释为优化预测准确性的“推理引擎（inference engine）”(Friston 2010)。已有研究已经发现，神经信号对偏离预期结果表现出极高的敏感度。这种敏感性被用来探测语言加工过程中使用的表征的种类。在这类工作中，计算模型用于定义即将到来的语言输入的概率分布。

surprisal的关联假设。surprisal是预期和实际语言输入之间的偏差；相当于传达的信息差。大脑对即将到来的语言表达式的概率分布量化了这些表达式的可预测性。可预测性可以被形式化为事件的自我信息或surprisal，比如给定的上下文字符串后面的特定后接词的可预测性（比如play the piano,懂英语的人会在听到“play the ”时，预期到后面接的是个乐器名词，还有一些固定短语搭配等都可以作为这类可预测性问题的实例）。

估计这种概率分布的一种方法是计算。例如，短语“look at the falling snow”中“snow”一词的概率可以通过在大量文本中计算“the falling”一词后面紧跟“snow”的频率来估计。以这种方式计算单词序列的三元马尔可夫模型已经被提出来。Willems et al.（2015）采用了这种方法，计算出snow一词的surprisal值，量化每个连续单词的非预期性。并使用功能磁共振成像，他们发现在左、右半球的上颞叶，有更强的surprisal所mapping的激活增加。

这项研究遵循了Brennan et al.(2012)和Yarkoni et al.(2008)对依赖于“日常”语言加工的神经信号的研究。这类研究通过向人类被试展示陈述性语言，就像人们阅读故事或听有声读物一样，来引出具有生态效度的自然语言理解。在随后的统计分析中，争论的焦点是观察到的神经信号在多大程度上符合或不符合实验中文本处理难度的理论预测。对预测器的一个关键要求是：广泛的覆盖范围，预测的难度越大，就越有可能估计预测器和测量的神经信号之间的关系(例如BOLD)。语言模型，如上面提到的与Willems et al.(2015)的研究相关的三元模型，正是在这种意义上的“广泛覆盖（broad coverage）”。但也有其他语言模型保留了三元模型的覆盖范围，同时对后接词的概率分布进行了锐化。现代人工神经网络语言模型就属于这一类。在 Elman (1990) 的基础上，Franket al. (2015) 的研究表明，神经网络语言模型可以解释人类电生理学中众所周知的预期效应，即 N400。

作为内部表征变化程度的surprisal

Ettinger et al.（2016）和Rabovsky et al.（2018）也对N400进行了建模。在这一工作中，关联假设是根据神经网络内部表征的成分变化来定义的。如果这些成分可以解释下一个单词的分布，那么将减少该词的（单词）surprisal。但重要的是，对于Rabovsky等人来说，他们模型中的表征不仅仅是单词标记。相反，他们将一种形式的格语法与Katz＆Fodor（1963）的分解语义结合。遵循McClelland＆Kawamoto（1986）和Rohde（2002）的做法，单词和句子都使用概念化的微观特征来表示。这种建模在计算细节上揭示了N400与句子意义预期有关的既定观点。

Brouwer et al.（2021）的研究成果从两个方面推广了这一普遍的做法。首先，他们对P600效应和N400效应进行了建模。其次，它们使用与命题逻辑模型相关的内部表征。通过为神经网络矢量值的内部状态提供一种从“微观世界”角度出发的解释，Brouwer等人研究了真实世界知识对句子加工的影响。

结构和序列

上述类型的神经网络序列模型与ngram模型一样，将语言概念化为单词的时间序列，缺乏层级结构。语言学家对乔姆斯基1956年对这种基于字符串的观点进行了批评，因此其他研究人员已经开始使用层级句法分析作为建模时间序列下的大脑数据的中间表征。

例如，Brennan & Hale(2019)证明了词性标签序列的短语结构模型比Frank et al.（2015）的ngram模型或简单的递归网络更好的拟合EEG数据的模型。它发现了一种不同类型的电生理反应，这种反应表现得更早，而且电极分布比经典N400更靠前。其他人也同样确认了层级语法在其他方法中的解释作用。

仅举一个功能磁共振成像的例子，Shain et al. (2020)使用surprisal关联假设从不同种类的概率短语结构语法中计算出加工难度预测。他们还从一个5-gram的马尔可夫模型中得到了surprisal值，但这个模型的参数只能用特别大的语料库来估计。这一点突显了将严重依赖数据的方法扩展到更广泛的跨语言研究的短板，特别是语料资源不足的语言研究方面的挑战。研究发现，这两种surprisal，一种基于层级短语结构，另一种基于单词序列，通过左半球额叶和颞叶的“语言网络”解释了一系列区域中BOLD信号的独立可变性。也就是说，数据与加工机制是一致的，这些加工机制对沿着局部单词到单词转换的层级依赖非常敏感。

这些研究关注功能磁共振成像数据和层级化的语言模型之间的拟合程度。层级结构是人类语言理解的重要部分，但从语言理解结果向这一过程属于反向推理。因此，这一推理依赖于与面向序列的、无层级的语言模型的比较。Hale et al.（2018）和Brennan et al.（2020）进行了一个更微妙的比较，它将真正的短语结构组合与“无组合（composition-free）”的语法分析相比较。利用Dyer et al.（2016）的递归神经网络语法(RNNG)对真实短语结构组成进行形式化。基线是一种语言模型，其输出不是语法树，而仅仅是带括号的字符串。使用这种“非组合（non-compositional）”替代表征的神经网络不强制形成真正的分层内部表征。这两个模型是关于人类脑电的surprisal值的统计比较，在遇到一个词之后大约200到300ms的时间窗出现了显式的层级组合。

多层次预测。

改变用来定义语言模型的符号也可以带来深刻的见解。例如，Lopopolo et al. (2017)使用了多层次预测的模型，即下一个符号在三个不同抽象层次上的表征。第一个层次是语音，根据语音的顺序来定义。第二个层次是单词序列。在第三个层次中，句法结构包含了语音标签的信息。Lopopolo和他的同事在每个层次上使用三元模型，确定了三个不同的大脑区域集合。它们中的许多都聚集在众所周知的外侧裂语言区域，但通过集合论运算，这些作者能够识别出，例如，角回是一个同时处理语法和语音信息的区域。

在他们的脑电图和脑磁图研究中，Heilbron et al. (2021)将来自转换神经网络(transformer neural network, GPT-2)的单词预测分解为不同层次的语言分析。首先，他们发现与早期反应（100-400ms）相关的形态句法和语音水平的可分离模式主要是在颞叶区域，而词汇语义预测相关的较晚的反应(>400ms)跨越更广泛的皮层区域。第二，语音水平的神经反应是由对词义的预测以自上而下的方式进行调制的。这支持了语言预测不仅发生在多个抽象层面，而且相互调节的理论。

后一点与文献中先前的发现一致。有研究向被试展示了图片-单词序列对，其中两个刺激可能匹配（高可预测性；例如，一个苹果的图片后面跟着“苹果”一词），也可能不匹配（低可预测性；例如，一张香蕉图片，后面跟着“苹果”一词）。要求被试指出后面的词是否正确描述了图片。他们发现，名词可预测性不仅调节了与词汇通达更直接相关的额颞叶区域的MEG反应，而且还调节了视觉皮层等较低层次的感觉区域。所有这些结果都符合句子加工的“交互（interactive）”模式，即不同的语言水平相互调节或相互制约。

3. 语言内部和跨语言的语言特征

解码范式。对映射问题的另一种回应认为，无论是语言还是其他方面的人类认知，神经活动不是对研究的间接表现，而是对概念的直接表征。一种研究这种表征的方法是由Mitchell和Just首创的MVPA方法。它将BOLD响应视为在功能磁共振实验过程中呈现的刺激在大脑中的向量表征。Murphy et al. (2018)回顾了从Mitchell et al. (2008)开始到18年以来的相关工作。这类方法的中心思想是使用分类器（classifier，统计工具，学习根据大脑信号对刺激特征进行分类或“解码”，即机器学习方法）来发现大脑数据是如何表征不同刺激之间的区别的。这些区别(例如，双宾语结构和介词与格短语结构之间的词汇化概念之间的区别)仅仅是大脑数据分类器的标签或特征。这种方法的一个关键创新是可以使用测试数据来验证以获得的分类规则是否具有泛化性能。

词汇语义。

对词汇语义的一个开创性工作是将名词语义进行向量化，使用word2vec的方法可以有效表征不同名词之间的关系。Huth et al.(2016)将同样的方法应用于自然语音样本。他们观察到，不同的词汇语义维度，如“社交”、“视觉”或“数字”，都可以映射到大脑皮层不同区域，形成一个基于单词共现的分布向量空间。

句法结构和题元角色。

Wehbe et al.（2014a）坚持上述一个单词一个向量的方法，将Mitchell/Just解码范式扩展到更广泛的语言特征和结构，这些特征和结构是自然主义文本的特征。他们为《哈利·波特与魔法石》第九章的每个单词赋予了特征。这些特征包括指称特征，是关于特定故事人物的身份、词性的标记以及特定单词所承载的依存句法关系的选择。被试在屏幕逐词阅读。然后使用机器学习方案对不同词进行分类，

Wehbe等人的创新研究使用了简单的语篇特征，这些特征在语言学中是没有争议的。他们的观点与Broca区域有助于识别主语、宾语或修饰语等语法依存性的观点一致。Zhang et al.(2021)将这种MVPA方法推及指称方向，从自然主义的刺激中解码故事人物的身份，结果发现，即使在没有公开提到而是由母语人士从语境中推断出来的“支持省略（pro-drop）”的情况下也能有效地解码。

这种方法的前景在于它与人工神经网络的协同作用。通过使用岭回归（ridge regression）等正则化技术，有可能了解(a)神经网络内部表征与(b)观察到的大脑数据(如BOLD信号)之间的线性关系。一项研究通过MEG和功能磁共振成像数据结合了递归神经网络讨论了这一问题。后来的工作将其扩展到著名的Jabberwocky操作，神经科学家使用Jabberwocky操作将语法从词汇语义中分离出来，并将其扩展到transformer模型，实现了用于自然语言处理的高性能神经网络。

迄今为止的研究结果似乎证实了Stowe et al.（2005）的观点，即语言加工涉及两个大脑半球，并且它是以从单个单词到更大表达式的处理级联来组织的。凭借其广泛的覆盖面，Wehbe等人展示了早期的工作如何推广到更自然的语言。它们也为外显比较打开了大门，类似于Huth等人对自己的单词嵌入和word2vec中的嵌入进行的比较。Anderson et al.（2021）通过比较多个词汇和基于句子的向量表征之间的拟合，展示了这项工作如何处理更抽象的结构。

上述神经网络模型都可以形成它们自己的内部表征，实际上通过反向传播算法对它们的训练数据执行语料库分析。作为这种发现过程的替代方案，我们可以从实验者预先给出的语言特征开始。有研究通过解码人类被试的脑激活图像做到了这一点。例如，一项研究确定了颞叶后部是支持对语义角色的施事和受事进行高概率解码的区域。该任务涉及到从四个可能的名词中解码出哪个名词实际上填补了特定的语义角色。另一项研究通过对逐个节点遍历短语结构树的随机游走进行采样，以近似的方式将短语结构树编码为数值向量。这些编码解释了在众所周知的语言区域中观察到的人类功能磁共振成像数据。特别是当结构树包括关于即将到来的单词的未扩展的自上而下的预测时，结果向量能够有效解释单变量分析中fMRI信号的变异。这些研究都与Wehbe等人的研究类似，使用了没有争议的语言特征。然而，潜在的方法可以进一步扩展到测试更具争议性的特征，如体验谓词的题元结构。

类型学比较。当涉及到语言理解时，语言之间的类型差异可能对应于不同的大脑网络或同一大脑网络的不同运作模式。研究发现，当以英语或俄语为母语的人执行理解母语故事的自然主义任务时，激活了大致相同的脑区。这与其他基于非自然主义方法的工作是一致的。但研究者仍不确定具体的类型特征是否会影响他们的结果。有研究者通过一个单一的特征比较了法语和汉语:语言表达单数和复数的方式。在法语中，此标记是公开的和强制性的，而在汉语中，此标记是可选的（例如“们”）。研究结果再次支持了一个假设，即：一组与语言相关的共享脑区有助于理解数字标记，无论它在语言中是如何发出信号的。

这些数据所支持的普遍主义观点对于不同语言变体如何使用共享的加工资源仍然不够明确。神经计算模型可能有助于揭示大脑机制如何在不同类型的语言中进行不同的分配。

5. 打开黑盒子以了解机制

上一节讨论的语言特征是人类语言加工的候选模型执行的句法和语义计算的输出。这种方法，以及第3节中基于预测的指标，本质上是完全不同的。也就是说，作者观察模型的输出或这些输出的概率分布，并将理论预测与人脑数据进行比较，这种方式与模型推导出的预测的内部加工相分离。这种做法已经成为Marco Baroni所认为的“面向语言的深度网络分析”的标准。这种扩展的方法使得研究者评估非常大的人工神经网络成为可能。通常，这些人工神经网络的操作模式难以简洁地描述，而使用脑激活数据与模型的特征进行比较可以得出一些有意义的证据。当然，这不可能是最后的结论——因为我们不能简单地用一个神秘的黑盒子(大脑)替换另一个黑盒子(深层神经网络)。对映射问题的更好回应不仅涉及输出，而且需要涉及到内部加工步骤，这些步骤对于现有的认知和语言理论是有意义的。

推导步骤与预测无关。一系列方法通过利用第3节中讨论的分析模型直接与加工步骤联系起来；这些模型利用了分析器本身的属性，而不是输出的表征。例如，有研究者使用的基于结构的RNNG分析器，以surprisal的形式进行了讨论。该分析算法从一个单词到下一个单词以增量方式工作，它包括一个循环，循环遍历与某些部分语言输入一致的可能的句法分析。对单词之间的迭代次数进行计数，通过对单词之间执行的分析器操作的数量求和，可以直接反映加工的效果。这种特殊的方法建立在将认知负荷与句法结构属性联系起来的规则上。有研究发现这种测方式量符合从左颞叶和额下回记录的BOLD信号。只有当分析器明确地将单词组合成短语时，才能看到拟合的改进，此外，分析器操作的效果在统计上独立于反映可预测性的效果。换句话说，虽然这样的方法要求共同致力于加工模型的表征元素和算法元素，但这些成分与神经信号的关系可以通过句法结构属性以更集中的工作的方式加以区分。

对加工模型进行比较。研究者在保持恒定的表征内容的同时，还可以直接比较不同的加工模型。一项工作利用了从神经外科患者的手术间记录中收集的高分辨率EEG数据。这些记录来自颅内脑电记录，可以高度的空间和时间精度区分神经信号。他们给患者一系列包含特定句法结构的句子。这些句子由语境无关的短语结构生成。通过这些短语，他们测试了一组加工模型，这些模型在遍历短语结构的迫切程度或预测程度上有所不同。这些模型包括“自下而上”、“序列加工和“自上而下”策略；每种策略都对句法结构的生成有不同的假设。

对每种策略下的分析器的输出与电生理信号之间的比较揭示了一种相关趋势，即序列加工策略和自下向上策略比自上而下策略的输出与左侧颞叶的脑电数据契合度更高。但这些差异在与语言相关的颞叶和额叶区域不是均匀分布的，这表明我们必须以更细微的方式理解句法分析的大脑基础，因为不同的句法分析策略可能在一个区域比在另一个区域激活更强。或者可能有特定结构的变体，使得某些语言表达比其他语言表达更容易理解。

现实语法的加工模型。在数学语言学中，一个适当的句法理论所需的“表达性”程度已经在很大程度上得到了解决：人类语法必须不仅仅是语境无关的，但也不能太多。一个语法的表达能力水平与人类语法水平相当的语法是否能产生符合特定人的语法的加工难度预测？答案是肯定的。研究者发现，由最简语法推导出的X-bar结构上的节点数预测了后颞叶BOLD信号的独特变化，这种变化不是由ngrams或Penn Treebank风格的naÏ ve短语结构获取的。有研究者更进一步地，直接对由近语境无关形式主义、组合范畴语法（CCG）指定的派生词进行操作。他们发现CCG改善了大脑六个语言相关区域的BOLD建模。添加一个特殊的语法分析器行为，促进修饰语短语的后期附着，提高了前颞叶和下额叶（“布罗卡区”）的匹配度。虽然仅凭这些结果就断定CCG或最简方案是人类语法的唯一正确理论还为时过早。但我们确实可以认为这些理论抓住了在人类语言加工过程中起一定作用的差异。

存储vs分析。语言学中一个由来已久的问题是关于简单记住整体的原子表达和由小片段组成的结构化表达之间的区别。Bever(1970)的经典观点是，一些表达被理解为记忆关联的问题；语素序列和功能标签（Actor-Action-Object）之间的联系不外乎是一种习惯。这一想法具有持久的吸引力，但仍然存在一个问题，那就是习惯和规则到底应该在哪里划清界限。有研究者从定量语言学的角度出发，使用自然主义刺激和统计关联指标来量化可能与记忆的表达相对应的单词序列的“粘着性（stickiness）”。将这些关联指标作为预测因素输入到线性回归中，突出了楔前叶——一个与情景记忆有关的大脑区域。这一结果可以支持Bever提出的一种变体，即人类的理解是交错的，因此有时记忆的组块是以一种依赖于涉及楔前叶的大脑网络的方式直接回忆的，而其他时间则以涉及颞叶的方式组成。

指称和共指。当然，除了它们的内部结构之外，语言中的表达也有指称--它们指的是人、地方和事物。研究者研究了语言的这一指称方面，使用复杂性指标来对单个文学叙事中特定共指链接的加工难度进行评估。这个故事对正在接受功能磁共振成像的听众来说是一种听觉刺激。在同一本书的英译本和中文译本中，结果发现了颞叶的两个脑区。这些脑区中的BOLD信号通过一个模型得到最好的解释，即该模型承认不同的主语和非主语的语法角色，并接受了ACT-R记忆理论。在解释观察到的BOLD变化的任务中，这种认知模型优于神经网络模型。随后的研究表明，在代词未被提及的情况下，涉及的脑区与第4节中讨论的“支持省略（pro-drop）”的大脑区域是相同的。

6. 经验教训和下一步的工作

可解释性的重要性。本文强调的研究达到了使用基本上可解释的计算模型进行科学解释的目标。也就是说，这些模型与语言学的理论结构相联系或实现。

高性能深层神经网络的出现提出了一种替代方法，该网络针对特定的自然语言处理任务（如语言建模）进行端到端的训练。这种模型的成功依赖于它们从特别大的训练语料库中提取细粒度统计规律的能力。有研究者利用这种训练产生的内部状态对功能磁共振成像和电生理数据进行解码，他们报告了神经网络表征和大脑数据之间的高度可靠的拟合，特别是在左颞叶。在他们的比较中，最适合的模型也是最大的神经网络，在非大脑相关的测量中表现出最佳性能。

然而，从这种比较中得出的结论在理论上仍是有限的。与大脑本身一样，研究者所研究的神经网络也是一种“黑盒子”；它们的内部状态无法直接解释。这种方法面临许多琐碎的陷阱：对语言统计高度敏感的系统反过来又在统计上彼此相似。如果没有可解释性，很强的统计关系就不能形成解释理论的基础。当然，后者的例子可以在相关方法中找到，正如Heilbron et al.（2021）和Caucheteux et al.（2021）的黑盒子模型输出以及Wehbe et al.（2014a）的可解释特征空间所示。另一个前进方向是解开神经网络的内部表征。

模型空间。在寻找可解释性模型时，这项综述借鉴了一些研究，这些研究的基本操作模式是确定计算模型的属性和大脑活动信号之间的相关性。当这些模型被认为是可解释的时，会将可靠的相关性作为证据，证明模型的特定特征是被测量的神经系统的基础。但是，这一推断步骤需要仔细审查。如第4节所述，统计分类器和人工神经网络可能会抓住特殊的数据模式，而不是感兴趣的语言特征。

加强推理的一种策略是，根据与神经数据的统计拟合程度，对特定语言现象的替代模型进行比较。例如，Shain等人于2020年完成了单词预测，Anderson等人于2021年完成了解码结构，Hale等人于2018年完成了加工模型。在所有这些例子中，支持或反对特定理论模型的主张都是基于与一组备选方案的明确比较，这些备选方案共同定义了一个可能模型或假设的空间。这种比较的逻辑在实验设计中是熟悉的，在实验设计中，基线是通过控制条件建立的，或者是通过评估最小配对来进行语言分析的，所有这些努力都面临着熟悉的挑战。

原则上，这样一个模型空间应该涵盖所有可能的假设，这些假设在当前对某些研究问题的理解下是合理的。在实践中，模型很可能只涉及相关空间的一小部分，基于这种比较的推论也因此受到限制。仅举一个具体例子，Brennan et al.（2020）认为预测的神经指标反映的是层级结构，而不仅仅是单词序列，但他的研究推理仅基于三个模型的比较。原则上，另一种单词序列模型可以为这种比较产生不同的结果。与其他领域一样，当多种方法的结果趋于一致时，就会得出更一般的结论；在这种情况下，Shain et al.（2020）通过比较一组不同的基于序列的层级模型得出了理论上相似的结论。自然数据的广泛覆盖计算模型提供的一个机会是，研究人员可以将替代模型与共享数据集进行比较。

可再次使用的数据。为了鼓励进一步的进展，作者邀请语言学家、神经生物学家和人工智能研究人员参与，分享了他们的几个数据集。这些数据包括《爱丽斯仙境历险记》第一章诱发的脑电图和功能磁共振成像数据，以及以法语、英语和汉语为母语的小王子演讲诱发的功能磁共振成像数据。这些数据集加入了越来越多的神经语言学语料库，如表1所示，这些语料库提供了丰富的、通常是自然主义的语言刺激和注释的神经数据。

表1.与神经计算模型一起使用的公开可用的神经语言学数据集。

总结：

当前，研究者们可以测试更细粒度的大脑/语言相关性。当他们将一个明确规定的计算模型分解成更小的部分时，每个部分在一个自然主义的听力过程中都会应用数百或数千次，研究者们就有可能定量地比较基于语言学不同主导思想的模型变体。一个技术先决条件是，被比较的模型必须覆盖范围足够广，才能真正适用于人类被试在研究中接触到的实验刺激。而且，被比较的模型在语言上是可解释的，这一点很重要。

在未来的研究中，预计这一领域将从单一语言研究转向更大范围的语言。在一个神经计算模型中同时考虑多种语言对于得出一般结论至关重要。随着网络规模的语料库的出现，相信这是一个现在可以实现的目标。

NLP服务神经网络

0 人点赞