作者 | 付海涛
审核 | 黄 锋
今天带来的是中国科学技术大学王明会团队2021年7月发表在Bioinformatics上的文章,题为“PhosIDN: an integrated deep neural network for improving protein phosphorylation site prediction by combining sequence and protein–protein interaction information”。本文将展示蛋白序列信息和PPI网络信息融合的深度学习框架,用于预测磷酸化位点。结果表明,该方法显著提高了磷酸化位点的预测性能,并且与现有的常规和激酶特异性磷酸化位点预测方法相比,具有良好的预测性能。
1
摘要
动机:磷酸化是研究最多的翻译后修饰之一,且在细胞过程中起着关键作用。近年来,深度学习方法在预测磷酸化位点方面取得了巨大的成功,但大多数方法都是基于卷积神经网络,可能无法捕捉到足够的蛋白质序列中残基之间的长程依赖性信息。此外,现有的深度学习方法仅利用序列信息预测磷酸化位点,因此开发一种可以结合异质序列和蛋白质-蛋白质相互作用(PPI)信息的深度学习体系结构来更准确地预测磷酸化位点,是非常有必要的。
结果:作者提出了一种新的整合的深度神经网络模型PhosIDN,通过提取、结合序列和PPI信息来预测磷酸化位点。在PhosIDN中,采取了一种序列特征编码子网络,该子网络不仅可以捕获蛋白质序列的局部模式,还可以捕获蛋白质序列的长程依赖性。同时,通过采用多层深度神经网络的PPI特征编码子网络来提取有用的PPI特征。此外,为了有效地结合序列和PPI信息,引入了异构特征组合子网络,来充分探索序列和PPI特征之间的复杂关联,并将它们的组合特征用于最终预测。综合实验结果表明,所提出的PhosIDN显著提高了磷酸化位点的预测性能,并且与现有的常规和激酶特异性磷酸化位点预测方法相比,具有良好的预测性能。
2
模型
PhosIDN包括3个紧密连接的子网络(sub-networks):Sequence Feature Encoding sub-Network (SFENet,序列特征编码子网络),PPI Feature Encoding sub-Network (IFENet,蛋白网络特征子网络),Heterogeneous Feature Combination sub-Network (HFCNet,异质特征结合子网络)。
图1 PhosIDN框架图
序列特征编码子网络提取序列信息
蛋白片段序列用one-hot编码,一共21种氨基酸,一条蛋白片段序列即为L*21的矩阵(L为片段的窗口长度,window size)。输入给由卷积层构成的DCCNN模块,后接着自注意力模块[图1右上部分,如图所示,易知],然后展平和全连接层变换为32维的表示,记为序列表示。[图1左上部分]
蛋白网络特征子网络提取网络信息
作者采用一种图嵌入方法先产生PPI嵌入(PPI embedding),然后输入一系列全连接层,得到网络中蛋白的32维表示,记为网络表示。[图1左下部分]
异质特征结合子网络融合序列和网络信息
作者将序列表示与网络表示的转置做内积,然后展平[双线性特征模块],最后通过多个全连接层,接Softmax得到预测结果。
训练与评估
作者通过最小化二分类交叉熵loss来优化模型,并采用一系列常用标准来进行模型评估,如曲线下面积(AUC),敏感性(sensitivity,Sn),特异性(specificity,Sp),精确率(precision,Pre),正确率(Accuracy,Acc),F1分数(F1 scores,F1)和马修斯相关系数(Matthew’s correlation coefficient,MCC)。
3
结果
DCCNN与PhosIDNSeq的分析
图2 不同窗口长度下,PhosIDNSeq在预测S/T和Y位点的ROC曲线
DCCNN表示模型仅用一些列卷积层组层的DCCNN模块提取序列信息。PhosIDNSeq表示仅提取序列信息的PhosIDNSeq模型。从图2可以看出,DCCNN似乎不能从窗口长度的增加中获得收益,表明卷积层比较善于学习局部序列模式,而可能不能更好利用更大的窗口长度的优点。PhosIDNSeq不仅能够捕获局部模式,而且能够捕获序列中的长程依赖。此外,作者还比较了PhosIDNSeq和DCCNN在预测激酶特异性磷酸化位点方面的差异,如表1所示。
表1 带序列信息的PhosIDN预测激酶特异性磷酸化位点的AUC值(%)
消融实验
作者比较了不同模块的组合预测与PhosIDN预测的AUC值,如表2、3所示。结果显示,PhosIDN总能达到其中的最好表现。
表2 利用序列和PPI信息的PhosIDN预测激酶特异性的磷酸化位点的AUC值(%)
注:Baseline,PPI嵌入和SFENet输出直接拼接后接一个全连接层;IFENet*,SFENet和IFENet的输出拼接后接一个全连接层;HFCNet*,PPI嵌入和SFENet的输出通过HFCNet融合;PhosIDN,作者提出的整合深度神经网络网络。最优值以粗体突出显示。
表3 在中等和高严格级别下预测激酶特异性的磷酸化的Sn, Acc, MCC, Pre和F1值(%)
对比实验
在与其他方法的对比上,作者提出的方法也取得了非常好的表现,如表4、5所示。
表4 不同方法预测激酶特异性的磷酸化位点的AUC值(%)
表5 高严格级别下不同方法预测激酶特异性的磷酸化位点的Sn, Acc, MCC, Pre和F1值(%)
可视化分析
作者亦将不同模块提取的特征进行了可视化,如图3所示。可以看出PhosIDN提取了较好的特征,能够将磷酸化和非磷酸化样本区分得更明显。
图3 原始one-hot编码特征、PhosIDNSeq提取的序列特征和PhosIDN提取的联合特征得可视化。红点表示激酶磷酸化位点属于(a)group Atypical或者(b)group CAMK,蓝点表示非磷酸化位点。
4
总结
本文提出了一个整合序列和PPI信息的深度神经网络框架PhosIDN用于预测磷酸化位点,行文易读,逻辑严谨,结果丰富,优点突出。推荐阅读原文。
参考资料
https://academic.oup.com/bioinformatics/advance-article/doi/10.1093/bioinformatics/btab551/6329824