简读分享 | 王宇哲 编辑 | 李仲深
论文题目
Protein language models trained on multiple sequence alignments learn phylogenetic relationships
论文摘要
近年来,自监督神经语言模型被广泛应用于生物序列数据中,促进了结构、功能和突变效应的预测。一些蛋白质语言模型,包括MSA Transformer和AlphaFold的EvoFormer,采用进化相关蛋白质的多序列比对(MSA)作为输入。MSA Transformer的行注意力的简单组合产生了最先进的无监督结构接触预测。本文证明了同样简单和通用的MSA Transformer的列注意组合与MSA序列之间的汉明距离密切相关。因此,基于MSA的语言模型编码了详细的系统发育关系。本文进一步表明,这些模型可以将编码功能和结构约束的共同进化信号从反映历史偶然性的系统发育相关性中分离出来。为了评估这一点,本文从在自然MSA上训练的Potts模型中生成合成的MSA,或没有系统发育,或有系统发育。本文发现,当使用MSA Transformer和推断Potts模型时,无监督接触预测对系统发育关系噪声的弹性更大。
论文链接
https://www.nature.com/articles/s41467-022-34032-y