今天给大家介绍的是Vladimir Gligorijević等人在nature communication上发表的文章《Structure-based protein function prediction using graph convolutional networks》。序列数据库中蛋白质数量的快速增加及其功能的多样性对自动功能预测的计算方法提出了挑战。作者提出了DeepFRI,一个利用从蛋白质语言模型和蛋白质结构中提取的序列特征来预测蛋白质功能的图卷积网络。它的性能优于当前领先的方法和基于序列的卷积神经网络,并可扩展到当前序列存储库的规模。使用同源性模型增强实验结构的训练集允许作者显著扩展预测函数的数量。DeepFRI具有显著的去噪能力,当实验结构被蛋白质模型取代时,性能只有轻微的下降。类激活图允许以前所未有的分辨率进行功能预测,允许在残基级别上进行特定位点的注释。作者通过注释来自PDB和SWISS-MODEL的结构,展示了此方法的实用性和高性能。
背景介绍
蛋白质可以折叠为三维结构,而这种结构特征决定了广泛的功能。高效低成本测序技术的出现和计算方法(如基因预测)的进步导致了关键蛋白质序列数据库中可用序列数量的大量增长,如UniProt知识库。UniProt目前包含超过1亿条序列,其中只有约0.5%是人工注释的(UniProtKB/Swiss-Prot)。为了解决序列-功能差距,目前已经开发了许多计算方法,以自动预测蛋白质功能。在过去的十年里,深度学习在各个领域展现了优越的性能,特别是卷积神经网络(CNN),计算机视觉领域最先进的技术,在解决计算生物学中的问题方面取得了巨大的成功。在这里,作者提出了一种基于图卷积网络(GCN)的功能注释蛋白质和检测蛋白质功能区域的方法,称为深度功能残基识别(DeepFRI),其性能优于当前的方法,并且可以扩展到当前序列信息存储库的规模。
模型与方法
2.1 结合蛋白质结构和预训练序列嵌入
在过去的几年里,有研究表明,从预先训练的、任务不可知的语言模型中提取的特征在许多自然语言处理和生物问题中可以显著提高分类性能。作者使用类似的方法从序列中提取特征和学习蛋白质表示。我们的方法的第一阶段是一个具有使用长短期记忆(LSTM-LM)的递归神经网络结构的自监督语言模型。该语言模型对蛋白质家族数据库(Pfam)中的一组蛋白质结构域序列进行预训练,用于从PDB序列中提取残基水平的特征(见图1a)。第二个阶段是一个使用深度结构的GCN用以在结构中位于近端的残基之间传播残基水平的特征,并构建最终的蛋白质水平的特征表示(见图1b)。
作者在来自Pfam的大约1000万个蛋白质结构域序列的语料库上训练LSTM-LM。在GCN的训练过程中,LSTM-LM的参数是固定的,即LSTM-LM阶段仅作为序列特征提取器使用。从序列构建的残基级特征,与接触图一起,被用作方法的第二阶段的输入。图卷积阶段的每一层都需要一个邻接矩阵和上面描述的残差层特征,并在下一层输出残差层特征。
图1. 方法概述。a.LSTM语言模型,用于提取PDB序列的残基水平特征。b.用于学习复杂的结构-功能关系的具有三个图卷积的GCN。
2.2 在训练中包含蛋白质模型
作者系统地探讨了不同的Cα-Cα距离阈值和不同类型的接触图对DeepFRI预测能力的影响,并进一步探索了不同的结构预测方法来训练和预测新观察到的序列,发现在训练过程中使用来自SWISS-MODEL的模型可以极大地提高模型的理解能力和准确性。
图2. DeepFRI在预测实验结构的MF-GO项和蛋白质模型方面的性能。
作者通过比较从SWISS-MODEL和其他新的结构预测协议中获得的模型上的性能,探讨了在PDB结构上训练的DeepFRI如何容忍建模错误。其次,作者研究了在DeepFRI训练程序中包含的同源性模型。结果如图2所示。
2.3 类激活图
类激活图增加了从蛋白质水平到区域水平预测的分辨率。许多蛋白质通过空间上聚集的重要残基集合来实现它们的功能。这在GO层次结构或EC值的分子功能分支中特别相关,而对于在生物过程分支中编码的项则不那么相关。设计ML方法识别这些功能残基一直是最近许多研究的主题。作者使用grad-CAMs,适应于GCNs训练后的分析。对于每个蛋白质,DeepFRI通过识别相关的残基来检测功能特异性结构位点进而作出准确的GO项预测,或EC预测。
图3. 蛋白质结构上对于位点的功能预测的自动定位
实验结果
为了比较此方法与以前发表的方法的性能,作者使用了一个带有实验确认过的功能注释的PDB链的测试集,由与训练集具有不同程度序列同一性的PDB链子集组成。作者将他们的方法与两种基于序列的注释转移方法(即BLAST和FunFams),一种最先进的深度学习方法(DeepGO),以及一种基于特征工程的机器学习方法(FFPred)进行了比较。CAFA挑战通常使用blast基线,其中每个测试序列都接收从训练集中的序列转移到的GO项,分数是成对的序列标识。作者的方法与最先进的方法和基线方法相比的性能如图3所示。在以蛋白质为中心的Fmax方面,作者的方法在MF-和BP-GO上都优于其他方法(图3a,e)。
图4. 在不同的本体和EC值中对GO项的性能。
总结
本文描述了一种连接计算生物学中蛋白质功能预测的两个关键问题,蛋白质结构预测和蛋白质功能预测的方法。作者的方法将深度学习与越来越多的可用序列联系起来,结构数据有潜力满足越来越多的基因组序列数据所带来的注释挑战,通过扩展看待生命树的分子视角为我们解释蛋白质生物多样性提供了新的见解。
参考文献
Gligorijević V, Renfrew P D, Kosciolek T, et al. Structure-based protein function prediction using graph convolutional networks[J]. Nature communications, 2021, 12(1): 1-14.
代码链接
https://github.com/flatironinstitute/DeepFRI