作者 | 应俊杰 指导 | 闵小平(厦门大学)
今天给大家介绍的是挪威奥斯陆大学语言学系、免疫学系等机构在 arxiv 上发表的预印文章《ImmunoLingo: Linguistics-based formalization of the antibody language》在文章中作者提出了抗体语言的两步语言形式化,以指导可解释抗体LM(language model)设计:(1)识别抗体序列(类似物)共享的自然语言属性。(2)基于已识别的类似物(语言模型)形式化抗体语言。将抗体序列语言的语言形式化整合到预处理抗体LM中。作者表示通过这种方式可以使模型有更好的可解释性,同时保持统计处理大型非结构化数据的能力。
1
研究背景
自然语言和生物序列之间明显的相似性导致了最近在抗体和其他生物序列分析中应用深层语言模型(LMs)的激增。语言形式化可以定义语言的基本的组成部分,例如词汇(即语言的离散单元)和语法(即连接序列格式良好性、结构和意义的规则)。然而,生物序列语言缺乏严格的语言形式化,这导致LMs在很大程度上被用于非特定领域,它们没有考虑到所研究的生物序列的潜在结构。另一方面,语言形式化为LM应用程序建立了语言信息丰富的领域适应组件。这将有助于更好地理解自然语言和生物序列之间的差异和相似性如何影响LMs的质量,这对于设计具有可提取序列函数关系规则的可解释模型至关重要,例如抗体特异性预测问题的基础规则。在此,我们将抗体语言的特性形式化,从而不仅为语言工具在适应性免疫受体分析中的应用奠定了基础,也为免疫受体特异性的系统免疫语言研究奠定了基础。
2
类比:抗体序列中自然语言的特性
将抗体序列视为语言的先决条件是类比的存在。作者确定了存在于抗体序列中的自然语言的以下关键特性:(1)离散性(2)层次结构(3)歧义(4)语义组合性
图1:抗体序列显示语言特性:离散性、层次结构、歧义性和语义组合性
2.1 离散性
语言序列由有限数量的较小单元构建成可数无限的可能组合。抗体序列数据也可以细分为更小的单位,但挑战在于找到可以产生用于预测抗体特异性的有用的可解释规则的离散单位的水平。一个明显的抽象层次是氨基酸层次,它最类似于语言中的声音:氨基酸和声音都是可以很好识别的小单位,它们本身不具有更抽象的功能意义。与所有蛋白质一样,抗体序列由氨基酸组成。在更高的层次上,也有理由相信存在比氨基酸更大的有意义的单位,类似于语言中的词汇项目。将抗体序列细分为大小介于单个氨基酸和完整序列之间的中间单元,以提高抗原结合的预测准确性。
2.2 层次结构
语言句子结构由一系列规则构建而成,通常被建模为树(图1B)。抗体具有超出其线性序列的 3D 结构,类似于蛋白质。蛋白质序列折叠成一级和二级结构,局部结构模式由局部氨基酸序列(可被视为原子词汇单位)定义,然后是更长距离结构域的 3D 构象(三级和四级结构 ,这可以被视为涉及更大单位(如短语)的结构。抗体的 3D 结构直接影响其特异性:折叠在抗体上产生互补位。
2.3 歧义
语言序列可能不明确,因为它们可以映射到多种不同的含义(图1C)。其他可能的歧义类型包括标记歧义和词汇歧义(即,相同的标记可以具有多种含义)。抗体通过交叉反应表现出模糊性,可进一步分为多反应性(识别具有不同表位的不相关抗原)、混杂性(识别几个突变变体)和保守识别(识别具有相同保守表位区域的不相关抗原)。多反应性和滥交都符合语言歧义的概念。与语言一样,抗体序列的模糊性可能是由于结构的模糊性,其中与给定序列相关的每个不同的抗体折叠结合不同的靶标。
2.4 语义的组合性
每个语言序列都映射到意义,意义是指基于语言之外的概念。词汇项的含义是任意的,因为它没有编码在构建它的字母或声音中;另一方面,句子的意义是组合的,因为它可以从与构建它的各个词汇项相关的意义以及它们组合的顺序中推导出来。组合性是自然语言解释歧义的关键特征(图1D)。
3
语言模型:根据 确定的语言类比,将抗体语言形式化
这部分里,作者将抗体语言形式化并描述其组成部分。形式化建立在自然语言和抗体序列之间的共同属性(离散性、层次结构、歧义和含义的组合性)之上,同时还考虑了两个系统之间的差异。
3.1定义抗体语言的格式和意义
为了使抗体语言形式化以回答抗体特异性问题,首先有必要定义什么构成了良好的结构及其含义。对于给定的自然语言,如果序列或结构符合语言的良构规则(良构声音序列的语音规则,即词汇项,以及良构词项序列的句法规则,即句子),并且每个句法结构良好的句子都在组合语义规则的帮助下映射到意义。
图2:抗体语言形式化
结构良好的抗体序列是所有可观察到的抗体序列的集合。自然语言的句法规则直接构建格式良好的句子结构,格式良好的句子可以从结构中读出。相比之下,对于抗体序列,我们区分序列构建句法规则,一方面确定格式良好的一维序列,而结构构建句法规则将格式良好的序列映射到格式良好的三维折叠结构。
3.2抗体语言有单独的句法和语义词典,其中包含句法和语义规则的离散单元
句法和语义规则都对离散单元集进行操作,这些分别是句法和语义词典。虽然语义词典的一项要求是其项目具有可以添加在一起形成组合意义的功能意义,但对于句法词典来说并不一定如此,因为句法规则仅确定项目的特定组合是否会导致结构良好的序列或结构。虽然在自然语言中句法和组合语义规则共享相同的词典,但抗体序列并非如此。作者的形式化工作为抗体语言定义了单独的句法和语义词典。抗体语义词典由词汇项目(即,与具有可识别功能意义的生物基序相对应的离散单元)组成,不能进一步细分为具有意义的较小组件。因为组合语义规则从结构映射到意义,语义词汇项目应该已经包含主题结构的知识。与语言词汇项目一样,这些基序在词汇上可能具有多种不同的含义,并且多个基序也可以通过映射到相同的含义而成为同义词。为了开发完整的抗体语义词典,需要详尽列出与抗体特异性预测相关的词汇含义,以及词汇含义与相应基序之间的分析映射。组合语义规则迭代地将功能基序的组合映射到组合含义,从而产生完整识别表位的特征。
3.3抗体特异性预测挑战的语言学视角
这部分中作者展示了语言形式化中如何解决抗体特异性预测的挑战。
图3:作为语言歧义的抗体交叉反应。抗体交叉反应可以被分析为不同类型的语言歧义
序列相似性取决于为计算编辑距离而选择的标记。例如,“cat”和“car”在基于字母的标记化中是相似的序列,但在基于单词的标记化中不是。在生物学中,序列相似性通常基于氨基酸编辑距离来衡量,因此就氨基酸而言只有几个编辑距离的抗体序列被认为是相似的。然而,基于氨基酸的相似性是一个较差的结合指标,因为相似的序列可以结合不同的抗原,而不同的序列可以结合相同的抗原。语言形式化表明,与抗体特异性相关的标记应该基于语义词典。由于语义标记构成了计算序列相似度的基础,序列相似度和特异性之间可能存在更强的相关性。抗体交叉反应可以理解为语言歧义(图 3)。
4
讨论:语言形式化指导抗体LM设计,目的是获得可解释性
预训练的 LM 对未标记的序列数据(预训练数据)进行自监督学习,是基于序列的概率模型。当前的抗体 LM通常使用 基于氨基酸的标记化,侧重于预测准确性而不是可解释性。语言形式化根据具有词典和语法的自然语言系统严格定义生物序列,为特定 LM 设计提供了更明确的指导。对于仅组合语义规则的有针对性的学习,抗体 LM 应接收使用结构信息编码并基于语义词典进行标记的输入。然而,更一般地说,具有已知功能意义的语义标记仍未探索,这阻碍了构建更具可解释性的抗体 LM。在这里只展示了抗体语言的形式化,但类似的形式化对于其他可解释的生物序列建模可能证明是无价的,并指出对现有生物学问题的新见解。
参考资料
Vu, M.H., Robert, P.A., Akbar, R., Swiatczak, B., Sandve, G.K., Haug, D.T.T. and Greiff, V., 2022. ImmunoLingo: Linguistics-based formalization of the antibody language. arXiv preprint arXiv:2209.12635.