今天给大家介绍的是山东大学魏乐义教授课题组在分析化学领域顶级期刊Analytical Chemistry上发表的文章“PepFormer: End-to-End Transformer-Based Siamese Network to Predict and Enhance Peptide Detectability Based on Sequence Only”。多肽的可检测性在鸟枪蛋白质组学实验中至关重要。目前,虽然基于多肽序列组成或理化性质的预测多肽可检测性的计算方法有很多,但都存在诸多不足。在这篇论文中引入了PepFormer,一种新型的端到端孪生网络架构,它将Transformer和GRU组合在一起,能够仅基于肽序列预测肽的可检测性。特别地,论文首次采用对比学习的方法,构造了一个新的模型训练损失函数,大大提高了预测模型的泛化能力。比较结果表明,模型在两个物种(智人和小家鼠)的基准数据集上的表现明显优于最先进的方法。
一、研究背景
蛋白质组学研究的基本任务是定性和定量鉴定组织或细胞中的所有蛋白质。鸟枪蛋白质组学通过将蛋白质水解提供了一种间接测量蛋白质的方法。其基本技术路线是先用酶将蛋白质分解成多肽混合物,用液相色谱-串联质谱(LC-MS/MS)进行分析,然后用MS数据检索数据库,从而确定蛋白质的种类。这种方法可以同时鉴定出数百种蛋白质。其中多肽的可检测性是指在LC-MS/MS实验中,肽被识别的概率,因此它有助于提供蛋白质推断和未标记定量的解决方案。然而,大多数用于蛋白质组分析的生物信息学流程中都没有考虑到这一特征。一个原因是质谱法检测肽或氨基酸序列有许多变量,如肽的理化性质、肽的LC-MS/MS行为以及相应蛋白质的丰度。针对这一问题,基于传统的机器学习算法和最新的深度学习算法,人们提出了一些预测多肽可检测性的计算方法。但虽然有很多现有的计算方法,它们仍然存在着诸多的问题。
这篇论文提出了一种新的基于Transformer的端到端的孪生网络架构来预测肽的可检测性,称为PepFormer。该方法的优点可归纳如下:
- 只需要肽序列来预测可检测性,不需要计算肽的理化性质和其他实验数据。
- 能够基于Transformer和GRU架构自动学习上下文相关的嵌入向量。
- 孪生网络结构能有效提高Transformer的学习特征的表示能力。
- 详细讨论和实验了不同的数据集生成方法。
二、模型与方法
模型的整体架构如下图所示:
该模型总共包括四个模块:序列预处理模块、孪生网络模块、优化模块和预测模块。首先,在序列预处理模块中,我们使用嵌入向量来表示输入肽序列的氨基酸。因此,肽序列可以用特征矩阵来表示。然后,将得到的特征矩阵输入到孪生网络模块中,通过Transformer编码器生成上下文相关的嵌入式表示。然后,我们使用Bi-GRU来捕获嵌入向量表示的长距离依赖关系。然后使用全连接神经网络(FNN)映射嵌入特征,生成统一的向量表示。这样就可以计算两个肽序列之间的距离。同时,该模型的提出是为了预测多肽的可检测性,需要一个判别器。在这个过程中,我们使用孪生网络架构。也就是说,正样本和负样本分别输入到权值共享的模型中。第三,在优化模块中,计算对比度损失,使同一标签的不同表示向量之间的距离更近,同时尽可能保持不同标签的不同表示向量之间的距离更远。同时为了避免灾难性遗忘,将会冻结前面网络层的参数以计算交叉熵损失。模型优化的总损失是对比损失和交叉熵损失之和。最后,在预测模块中,通过给出预测得分,该模型可以判断给定的肽是否可检测到。如果预测得分>0.5,则可检测;否则,则不可检测。
三、实验结果
在两个物种的数据集上的实验结果证明了模型的效果。下图是模型的ROC曲线和PR曲线:
下图是对模型学到的特征向量的可视化表示:
四、总结
这篇论文中提出了一种基于Transformer的孪生网络结构,用于预测肽的可检测性。首次使用一个Transformer来编码肽序列的上下文嵌入。结果表明,将孪生网络结构引入预测模型,可以有效地提高肽检测预测的准确性和泛化能力。与目前最新的方法相比,PepFormer在不同种类上的综合性能都得到了较好的测试,表明该方法有可能成为预测肽可检测性的有用工具。更重要的是,仅给定肽序列,我们证明了我们提出的端到端网络结构可以自动地从序列中学习和探索鉴别信息,而不需要事先的知识和手工构建的特征工程。最后,本研究对提高蛋白质定量、发现生物标志物,为早期诊断和治疗提供了重要的参考。
代码
https://github.com/WLYLab/PepFormer