作者 | 尹成林 编辑 | 尹成林 校对 | 李仲深
今天给大家介绍的是中国科学院计算机研究所发表在Briefings in Bioinformatics上的一篇文章“pNovo 3: precise de novo peptide sequencing using a learning-to-rank ramework”。
基于串联质谱数据的新肽测序是猎枪蛋白质组学的关键技术,可以用于识别没有任何数据库的肽和组装未知蛋白质。然而,由于串联质谱的离子覆盖率低,如果某些连续的氨基酸的支持性片段离子全部丢失,则无法确定其顺序。这就导致了从头测序的低精确度。为了解决这个问题,作者开发了pNovo 3,它使用了一个排名学习的框架来区分每个光谱的相似候选肽。精度比其他三种最先进的从头测序算法高出11-89%。与同样使用深度学习方法的新开发的DeepNovo相比,pNovo 3在9个数据集上仍能识别21-50%。
一、研究背景
基于质谱数据的猎枪式蛋白质组学研究着重于高通量的肽和蛋白质鉴定。主要方法是使用专门的序列数据库来识别肽和蛋白质,如SEQUEST。主要方法是使用专门的序列数据库来识别肽和蛋白质,然而尽管数据库搜索具有无可争议的普及性,但它仍然需要参考数据库来检索候选多肽,因此它不能搜索没有任何蛋白质组数据库的物种(如微生物群落)或未知的蛋白质(如单克隆抗体)。即使对于氨基酸突变、翻译后修饰仍然难以被现有的数据库搜索策略所识别。肽和蛋白质鉴定的另一种方法是从头测序法,它直接从串联质谱中推断出氨基酸序列。直接从串联质谱中推断氨基酸序列。从头测序不需要任何参考数据库,所以它在鉴定新的蛋白质序列方面有不可替代的优势。例如,许多研究已经使用新的测序方法来组装单克隆抗体。
尽管已经提出了许多从头测序工具。但从头测序的精确性仍然是值得怀疑的。只有大约40%的从头测序结果与数据库搜索结果一致,其中对模拟数据集的分析表明,从头测序的低精度测序的低精度主要是由大量的噪声峰和串联质谱中片段离子覆盖率低,尤其是后者。当片段离子覆盖率从100%下降到50%时,正确测序的肽段的比例从80%下降到只有20%,这表明从头测序的精度对片段离子覆盖率非常敏感,其根本原因是片段离子的缺乏使得连续氨基酸的顺序发生变化。为了区分相似的多肽候选物,需要一个更强大的分类方法来区分这些多肽。排序学习模型适合于解决这个问题。排序学习在信息检索的许多应用中很有用:给定一个查询,所有的网页都应该根据查询与网页之间的相关性进行排名。检索和每个网页之间的相关性来进行排名,这与肽的排名非常相似。这与为每个给定的光谱对多肽(网页)进行排名相当相似查询)的肽(网页)排名,而不考虑不同光谱之间的多样性。此外,深度学习在许多研究领域都有持续上升的趋势。此外,深度学习在许多研究领域都有持续上升的趋势,甚至在诸如围棋等困难的决策问题上也是如此。另外,最近也有一些基于深度学习的研究在蛋白质组学的研究最近也被提出。例如,DeepNovo使用卷积神经网络和递归神经网络来学习串联质谱的特征,用于新的测序,以及pDeep使用双向长短期记忆网络来预测一个给定的肽的理论谱系。
本文开发了一种新的从头测序算法--pNovo 3。与直接在DeepNovo中使用深度学习的方式不同,多肽候选物的生成首先使用传统的动态编程方法,然后在pNovo 3中提取一些特征,然后根据pDeep的预测结果,通过深度学习,以及其他与碎片化模式相关的信息。通过SVM-rank训练的学习-排名模型,建立了一个学习排名模型,对之前生成的候选多肽进行排名。此外,还提出了光谱合并方法,以合并具有相似前体离子质量的光谱结果,进一步提高pNovo 3的性能。最先进的从头开始的多肽测序工具相比,pNovo 3的召回率提高了29%。pNovo 3在全长肽水平上提高了29.4-96.1%,在全长肽水平上提高了2.0-20.1%。在七个不同物种的测试数据集上,pNovo 3在全长肽水平上提高了29.4-96.1%,在氨基酸水平上提高了2.0-20.1%。
二、模型与方法
2.1 生成基本数据集
研究中使用了七个高分辨率的数据集。前五个数据集是由Thermo ientific Q Exactive获得的,采用了HCD激活模式,最后两个数据集是从Thermo Scientific Q Exactive的HCD激活模式下获得的。这些数据集来自各种各样的物种,以确保对不同的样品进行无偏见的评估。
第一个数据集(Vigna mungo,V.mungo)被用来训练排名学习模型,而其他六个数据集则用于性能评估。
2.2 模型的构建
本文对肽序列进行分析的步骤如下:首先,通过pDeep模型,基于深度学习的方法预测每个候选肽的理论光谱。第二,根据pDeep的结果和其他统计数据提取特征。第三,通过排名学习对候选肽进行重新排序,最后,整个数据集的结果使用谱系合并方法进行更新。pNovo 3的具体的工作流程如图1中所示。
图1. pNovo 3的具体的工作流程
1.生成理论光谱,pDeep预测的理论光谱是由所有骨干理论离子的质量和强度组成的。离子,包括具有1þ和2þ电荷状态的b和y离子系列。假设r1, ..., rn(n是所有离子的数量)是所有离子的真实强度。(b1þ, b2þ, ..., b1þþ, b2þ, ..., y1þ, y2þ,..., y1þ, y2þ, ...), p1, ..., pn是预测的相应离子的强度。r是r1, ..., rn的平均值,p是p1,..., pn的平均值, r01, ..., r0n是r1, ..., rn的索引。如果它们按降序排列,则有三种衡量相似性的方法,即理论光谱和实际光谱之间的三种相似度,即余弦、皮尔逊和斯皮尔曼。分别通过公式1至3进行计算。余弦相似度的值为0到1,其他两个相似度的值为1到1。相似性的值从0到1,其他两个相似性的值从1到1。
图2. 相似度计算公式
2.提取间隙特征,利用PSMs(倾向值匹配)中的碎片隙信息独立于设计pDeep理论谱预测的特征。当b和y离子在两个连续的氨基酸之间分裂时。在没有其他信息的情况下,我们无法区分这两个肽。我们可以通过使用大量现有的高分辨率MS/MS 数据的统计数据来计算在PE和EP之间丢失片段离子的概率。在两个连续氨基酸XZ之间丢失片段离子的概率是由离子缺失的XZ的数量除以统计数据集中的XZ总数来定义的。这种概率被称为g1,即从0到1。具体地说,考虑到重新序报告的两个n端氨基酸的顺序通常更容易出错,文章中还计算了两个n端氨基酸之间失去片段离子的概率,这被称为g2。它的值也是从0到1。在运行实例中,EP和PE之间丢失片段离子的概率分别为3.4%和20.1%,这表明PE肽应该比EP肽更有信心。
3.训练模型,在模型训练之前,最终提取了六个特征,即原始的PSM分数,第1部分中描述的理论和真实频谱之间的三个相似点,以及G1和G2两个特征。根据每个光谱中排名靠前的候选肽的相应特征值的范围,所有的特征值归一化为[0, 1],通过pNovoþ,输出从头测序的结果和前10候选序列。如果由数据库搜索结果注释的正确肽谱的前10个候选序列中不包含正确的肽,那么这个谱就不能使用,反之,则认为具有正确肽序列的PSM被视为一个阳性样本,而其他9个具有错误肽序列的PSM被视为9个阴性样本。使用SVM-rank对所有的阳性和阴性样本进行训练,使用正则化参数为1000,基于线性分类器而不是核分类器。因为前者的速度更高。
4.通过频谱合并来提高结果正确率,在通过SVM-rank的输出分数对每个光谱的前10个候选序列进行重新排序后,在预先设定的容许范围内(如620ppm),对具有相似的前体离子质量的不同光谱进行进一步检查检查它们是否是由同一肽产生的,在这个步骤中,每个光谱中唯一的top-1序列被保留。谱系合并后,再次进行第三步,进行模型的训练,得到更精确的结果。
三、模型效果
本文在七个真实数据集上研究了基于正确识别的PSM的三种相似度分布。pDeep的展现出了优异性能,理论预测的光谱与真实光谱非常相似。
图3 理论预测与真实数据比较
本文也将pNovo3与其他三个最先进的肽测序工具进行了比较:
图4、图5. 模型与领域内其他算法的比较
图6 与其他算法的召回率比较
图7 与其他算法的性能
四、总结
本文使用深度学习方法来提取特征,并建立了一个排序学习模型并重新进行排序学习得到结果。但到目前为止,从头测序的低精度问题还没有得到很好地解决。在所有的数据集上,pNovo 3的召回率和准确率与pNovo、PEAKS、Novor和DeepNovo相比是最高的。但在不同的数据集上,pNovo 3的前10名结果的召回率仍然只有60-76%。从头测序得到的数据之间相似性太接近了,无法找到哪一个是正确的。这意味着,现阶段的从头测序算法即使使用有效的深度学习方法在当前阶段可能无法区分具有长间隙子序列的类似结果。
代码地址
http://pfind.ict.ac.cn/software/pNovo/index.html.
参考文献
Yang H, Chi H, Zeng W F, et al. pNovo 3: precise de novo peptide sequencing using a learning-to-rank framework[J]. Bioinformatics, 2019, 35(14): i183-