【蛋白设计】EGRET : 利用边缘聚集图注意网络基于单体蛋白预测PPIS

2021-12-04 09:26:01 浏览数 (1)

——研究背景——

蛋白质-蛋白质相互作用在大多数生物过程起着至关重要的作用。然而,使用传统的实验方法来确定蛋白质-蛋白质相互作用位点(PPIS)依然要耗费大量的时间和资金成本。因此,近些年来涌现出很多预测PPIS的算法,大多都是需要partner的,虽然也有加入PSSM矩阵信息后可以做到基于单体的预测,但是结果都不是很理想。

近期,孟加拉大学和马里兰大学的MdShamsuzzoha Bayzid和Sazan Mahbub共同更新了他们在bioRxiv上的文章,提出了一种基于 EGRET的端到端高精度深度学习模型的PPIS预测方法该方法使用一个边聚合图注意网络来有效地利用结构信息(文中提到的GAT-PPI模型是EGRET去掉边聚合模块的Ablation Model)。

此外,本文也是首次使用迁移学习预测PPIS。

——方法——

一、特征表示:

1、蛋白质的图表示:

EGRET模型是一个基于图神经网络的体系结构,首先将数据集中每个蛋白质的三维结构表示为有向k近邻图G。

G中节点的V(G)表示蛋白质的氨基酸残基, Ni为残基i ( i∈V(G) ) 的近邻残基的个数,残基i位于中心,任何两个节点(残基)之间的距离是通过它们的平均原子之间的距离来计算的 (使用PDB文件中的原子坐标) 。

图一:残基与近邻残基的示意图

2、节点特征表示:

输入的序列X = { X1, X2 , . .. . XN }通过ProtBERT进行编码产生节点特征向量{q = q1 , q2 . . . qN },qi∈dprotbert(dprotbert=1024),与其他方法相比,ProtBERT在残基水平分类任务上取得了更好的性能。

3、边特征表示:

在表示蛋白质的有向图中,Eji(连接i,j的边)的边特征由 ξ ji表示,ξ ∈ R是边界特征的个数。

1)残基i和j之间的距离Dij,它是通过取它们原子之间的平均距离来计算的

2)残基i和j的相对取向θij,计算方法为这两个残基通过的平面(由N、Cα、C三个原子确定)的法向量之间夹角的绝对值。

二、EGRET的模型结构:

图二:EGRET模型结构示意图,a) 局部特征提取器;b) 边聚合图注意; c) 分类器

1、局部特征提取器:

局部特征提取器 λ 用来提取蛋白质的图表示G。λ不仅捕捉蛋白质(序列)残基的局部相互作用,而且将节点级特征向量{q=q1,q2...qN} 进行降维。

λ 使用窗口大小为W的一维卷积神经网络层作为卷积层(W为相对较小的奇数, 理解为卷积核的大小),以捕捉关于顺序较近的残基之间的关系的信息(不包含三维空间信息)。取奇数是为了确保特定残基i两侧的残基数量相等。节点特征序列q通过λ生成一个低维表示{h = h1, h2 . . . hN }hi Rfε。

2、边聚合图注意力层:

作者对最初的图注意力层修改引入边聚合算法。特征表示h (由局部特征提取器λ产生) 使用边缘聚合图注意力层Υ进行变换,以编码蛋白质的三维结构信息。

各图神经网络基础架构通常是以一个节点的聚合过程中将所有相邻节点的特性表征聚合生成一个固定大小的Ui表示为新节点, 然后用于进一步的计算。一个常用的聚合过程是对相邻节点的特征进行加权平均:

γji代表i,j相互作用的重要程度。然后计算边特征ξij的注意力分数(需要考虑边和节点):

Ω(.)代表激活函数,然后通过softmax函数来进行归一化处理,之后将输出的归一化向量来约束边特征和节点特征来得到最终的特征向量:

3、判别概率输出:通过线性层和sigmoid激活函数得到概率输出,此概率表示残基是否位于PPIS。

——训练数据——

本文的基准数据集类似于DeepPPISP数据集,包含三个常用的数据集: (1) Dset186, (2) Dset72, (3) PDBset164, 这三个数据集都是用pdb-database中的蛋白质建立的,序列同源性小于25%,分辨率小于3.0 Å (X射线晶体学解析) ,至少有5%的残基为PPI界面残基的异源二聚体蛋白质结构。将这三个数据集整合成一个融合的数据集,以确保训练集和测试集来自相同的分布。70个(16.6%)随机选择的蛋白质序列的测试集和 (约83.4%) 蛋白质序列用作训练集。

表一:基准训练集与测试集数据统计表(右边两列是界面残基和非界面残基占的比例)

——结果与讨论——

基于PPI预测问题的不平衡性, EGRET得到的F1评分、AUPRC和MCC分别为0.438、0.405和0.27,分别比现有最佳DELPHI高4.8%、12.5% 和14.4%,并且去掉边聚合模块的GAT-PPI的表现要差于EGRET。

表二:EGRET和 GAT-PPI 的预测性能比较与其他最先进的方法在DeepPPISP 基准数据集上的表现

EGRET的设计初衷就是要得到不同氨基酸之间的全局信息来进行优化的,基于此,作者又进行了对于长程相互作用,GAT-PPI和DELPHI与EGRET的效果评估:

图三 :长程相互作用和蛋白质长度对 ppi 位点预测性能的影响

如图一可以看到,相互作用数目越多或者序列上的相距越远,预测效果会随之递减,但是GAT-PPI和EGRET都远好于DELPHI。

为了说明迁移学习的影响,作者研究了 ProtBERT 生成的特征向量与其他类型的特征表示相比的效果。分别又将两种模型在以DeepPPISP数据(PSSM, 初始序列信息, 八种二级结构信息)为输入时做了测试:

表三:不同类型特征的影响

PInet是一种基于partner的PPIS预测模型,MaSIF也是一种基于单体的预测模型,但是前两者与本工作相比都使用了除了几何结构信息之外的信息(比如静电势,氢键分布,亲疏水性等),作者在MaSIF数据集上做了如下对比:

表四:PInet、MaSIF在使用不同级别信息时与EGRET的对比

EGRET在仅使用几何信息并基于单体的条件下,表现都要优于前两者。

并且,作者还测试了EGRET在对接数据集Dockground上的表现,也得到了很好的结果,相互作用位点的平均召回率在90%以上。

参考文献:

Mahbub Sazan, Md Shamsuzzoha Bayzid."EGRET: Edge Aggregated Graph Attention Networks and Transfer Learning Improve Protein-Protein Interaction Site Prediction." bioRxiv (2021):2020-11.

DOI:10.1101/2020.11.07.372466

0 人点赞