BIB|通过深度多任务学习准确预测RNA、DNA 和蛋白质结合的内在无序残基

2022-03-04 14:51:37 浏览数 (1)

2021年12月15日,Briefings in Bioinformatics杂志发表文章,介绍了一种用深度多任务学习预测 RNA、DNA 和蛋白质结合的内在无序残基的方法。

蛋白质固有无序区(IDR)缺乏稳定的三级结构,在生理条件下形成动态构象。最近的生物信息学研究表明,无序在自然界中非常丰富,据估计,真核蛋白质中约有20%的残基是无序的。具有IDR的蛋白质参与多种细胞功能。许多IDR与对象分子相互作用,包括脱氧核糖核酸(DNA)、核糖核酸(RNA)和蛋白质。更具体地说,DisProt数据库的8.1版包括1652个相互作用的IDR,占据了该数据库中注释的IDR的42%。接近90%(1652个相互作用的IDR中的1473个)与蛋白质和核酸结合。然而,DisProt总共只覆盖了大约1700个蛋白质,而数百万个蛋白质序列还在等待相互作用的IDR的注释。

1.研究背景

相互作用IDR的计算预测器有助于缩小这一巨大且不断扩大的注释差距。基于广泛的文献检索,我们确定了22个相互作用的IDR的预测器。

对相互作用的IDR预测中,ANCHOR2和DisoRDPbind依赖于相对简单的预测模型。DisoRDPbind使用Logistic回归,而ANCHOR2使用基于生物物理学的评分函数。此外,预测与蛋白质、DNA和RNA相互作用的DisoRDPbind应用了三个独立/并行的回归变量。这样,它就错失了对这三种类型之间交互的关系进行建模的机会。例如,与核酸和蛋白质结合的残基比非结合残基具有更高的相对溶剂可及性,而核酸结合残基通常带正电荷,并且比蛋白质结合残基在进化上更保守。

DisoRDPbind是预测核酸结合IDR的唯一工具,再加上目前相互作用的IDR预测指标的准确性,推动了更准确的解决方案的开发。

最近的研究表明,蛋白质结合区域的结构训练预测器在用于预测蛋白质结合IDR时表现不佳。我们通过评估最近几个表现良好的结构训练预测器对相应无序结合区上蛋白质、DNA和RNA相互作用残基的预测结果,进一步探讨了这一发现。

我们介绍了DeepDISOBind,这是一个定制的多任务深度神经网络,可以准确预测DNA、RNA和蛋白质结合的IDR。多任务学习旨在通过使用共享表示(即模型的公共部分)来预测相关的学习任务(即结合到不同的对象)来提高预测性能。最近,与单任务模型相比,多任务模型被证明提高了生物信息学问题的预测质量,包括裂解位点的预测和残基间距离的预测。

我们设计了多任务架构,在该架构中,后续层逐渐专门化地预测与不同结合对象类型的相互作用。我们将这种拓扑与单任务实现和现有的代表性预测器进行了比较。我们还评估了DeepDISOBind对人类蛋白质组的预测,并将我们的工具作为一个方便的网络服务器发布。

2.方法

数据集

我们从DisProt获取数据,用于训练和比较评估我们的预测模型。我们使用DisProt中列出的基础出版数据手动检查在DisProt中注释为核酸、DNA和RNA结合的IDR,以便将它们归类为DNA和/或RNA结合。将这些蛋白质分为三个子集,分别构成训练数据集、验证数据集和测试数据集。

我们将原始蛋白质集与CD-HIT以30%的序列相似性进行聚类,并将整个蛋白质簇放入训练、验证和测试数据集中。测试和组合的训练/验证数据集共享相似的大小,而训练数据集被设置为验证数据集的两倍大小。

本程序遵循该领域的常用做法,并确保训练/验证和测试数据集之间适当水平的分离(<30%的序列相似性)。详细的统计数据,涵盖三个数据集中的 RNA-/DNA-/蛋白质结合残基的分布如表1所示。

表1 数据集摘要

The DeepDIOSBind predictor

DeepDISOBind是一个多任务深度神经网络,可以同时预测与蛋白质、DNA和RNA相互作用的IDR(图1)。我们使用直接从蛋白质序列中提取的自定义序列配置文件作为输入。DeepDISOBind网络的后续层逐渐特定预测与不同类型对象的相互作用。相应地,该网络由五个主要元素组成(图1):公共层、核酸结合层、蛋白质结合层、DNA结合层和RNA结合层。

图1.DeepDISOBind预测器的多任务拓扑

3.结果

DeepDISOBind与相关方法预测性能的比较评估

我们将DeepDISOBind产生的结果与基于测试数据集上的单任务网络的10个代表性工具进行了比较,如表2所示。我们评估了DeepDISOBind是否在统计上比其他跨不同数据集的解决方案提供了显著的改进。

表2显示,DeepDISOBind在三种结合对象类型和三种性能指标上始终确保最佳的预测性能。此外,与其他10种预测方法相比,AUC、灵敏度和F1的改善具有统计学意义(P值<0.05)。

表2.对测试数据集的比较评估

注意:二元预测使用的阈值使所有方法的特异度都等于0.8,以便进行直接比较(详细信息请参见评估标准部分)。 表示DeepDISOBind在统计上明显更好(P值<0.05)。=表示DeepDISOBind与另一个预测值之间的差异不显著(P值≥0.0 5)。每列的最佳结果以粗体显示。

DeepDISOBind的平均AUC、灵敏度和F1(通过三种相互作用作用计算)分别为0.75、0.56和0.30,而其他三种工具提供了相同范围的蛋白质、DNA和RNA相互作用的预测:DisoRDPbind(0.66、0.42和0.23)、ProNA2020(0.47、0.28和0.13)和MTDsite(0.64、0.35和0.22)。

我们还使用宏观平均和微观平均指标来评估这四种方法的多标签预测(表2)。与单标签评估一致,DeepDISOBind的表现优于其他三个预测指标,宏观F1为0.30,宏观灵敏度为0.56,微观F1为0.30,微观灵敏度为0.58。这些结果在统计学上优于其他三种方法的结果(P值<0.05)。

与DisoRDPbind、ProNA2020、MTDsites、SCRIBER、ANCHOR2和MoRFChibiLight相比,DeepDISOBind的灵敏度分别为30.5%、190.2%、95.7%、40.5%、18.8%和18.5%,对无序蛋白质相互作用的预测灵敏度为(0.595-0.456)/0.456。这意味着 DisoRDPbind 以相同的假阳性率正确识别了至少 18.5% 的相互作用残基,即我们将所有方法的特异性固定为 0.8,这对应于 0.2 的假阳性率。

同样,对于 RNA 相互作用,DeepDISOBind 的灵敏度分别比 DisoRDPbind、ProNA2020、MTDsites、NCBRPred、BindN 和 RNABindRPlus 高 67.9%、216.5%、27.5%、34.3%、29.2% 和 81.8%。

与 DisoRDPbind、ProNA2020、MTDsites、NCBRPred、BindN 和 T argetDNA 相比,DNA 相互作用预测的灵敏度分别提高了 4.4%、7.0%、86.5%、28.6%、42.6% 和 72.3%。当使用 F1 和 AUC 指标时,类似的观察结果也是正确的。

图2.DeepDISOBind、MTDsite、ProNA2020、单任务网络(V8-V10网络的组合)、Combine_Best方法和DisoRDPbind之间在测试数据集上的预测性能的比较,该方法对从六个预测器中选择的每种相互作用类型使用最佳方法。我们用AUC(左侧的条形和垂直轴)、F1和D灵敏度(右侧的线条和垂直轴)的平均值(在三种相互作用类型上)来量化预测性能。

图2提供了一种更直接的方法来比较DeepDISOBind与目前最先进的技术。DisoRDPbind,它是唯一与 DeepDISOBind 范围相同的无序训练预测器;以及MTDsites 和 ProNA2020,它们是最近发表的两种结构训练方法,可预测蛋白质、DNA 和 RNA 相互作用的残基。

首先,我们注意到在三个指标上对比多任务 (DeepDISOBind) 与单任务解决方案(P 值<0.05)时,具有显著统计学意义的改进(表 2)。其次,DeepDISOBind比目前最好的方法的组合有很大的统计意义(AUC为0.75比0.70,灵敏度为0.56比0.41,F1为0.30比0.26)。第三,DeepDISOBind和单任务网络的性能优于DisoRDPbind,主要是因为后者依赖于利用更简单的Logistic回归模型。最后,DeepDISOBind优于ProNA2020和MTDsite,因为后两者是针对结构蛋白进行训练的。

最后,我们调查了测试蛋白质与用于训练PSIPRED和Spot-Disorder-Single方法的蛋白质之间相似性的影响,我们利用这些方法来推导DeepDISOBind的输入(图1)。我们收集并组合了这两个预测器的训练数据集。接下来,我们用BLASTp将每个测试蛋白与每个训练蛋白进行比对,以注释测试蛋白中相似性>30%的区域。最后,我们重新测试了DeepDISOBind和其他蛋白质结合残基、DNA结合残基和RNA结合残基的预测器在排除相似区域时对测试蛋白的预测性能。

总体而言,在完整测试数据集和与PSIPRED和SPOT-Disorder-Single训练数据相似度较低的序列区域上的结果是相似的。这可以通过我们使用PSIPRED的单序列版本和固有的单序列Spot-Disorder-Single来解释。这两种方法都不使用序列比对,从而最小化了过度拟合训练数据集的可能性。综上所述,实证分析表明,DeepDISOBind对无序的蛋白质、DNA和RNA相互作用的能做出更准确的预测。

交叉预测和过度预测的评估

图3. 测试数据集上的平均敏感度(在三种相互作用类型上)与平均交叉预测和过度预测比率的比较。更大的比率表示更高的质量预测。

结合残基具有某些特征,如高度的进化保守性和高度的溶剂可及性。这可能会导致大量的交叉预测,这些交叉预测是以与给定的配对类型结合的残基的比例来衡量的,这些残基被预测为与另一种配体类型的相互作用,例如蛋白质结合残基被预测为DNA或RNA结合残基。

相应地,我们评估DeepDISOBind和其他10个被认为是交叉预测和过度预测的预测器(预测与给定对象类型相互作用的非结合残基的分数)。图3量化了测试数据集上交叉预测的敏感度(正确预测率)的平均比率(正确预测率)和过度预测率(错误预测率);ratios>1 表示正确预测率高于过度或交叉预测率的方法。

我们对不同预测者的结合残基预测比率进行归一化,以允许跨方法比较比率。我们使用同一组预测将DeepDISOBind与其他方法进行了比较,例如,我们将DeepDISOBind对蛋白质结合残基的预测与Scriber、ANCHOR2和MoRFChibiLight的结果进行了比较。在所有方法中,过度预测的比率都相对较高,范围在TargetDNA预测的1.89和DeepDISOBind对RNA结合残基预测的11.94之间(图3中的灰条)。这意味着被预测为结合的非结合残基相对较少。

我们还观察到,DeepDISOBind 在所有场景中交叉预测的比率最高/最佳,除了与 RNABindRPlus 的 RNA 结合预测相比,这两种方法都取得了良好的结果,1.73 和 1.91(图 3 中的黑条)。

此外,DeepDISOBind的比值总是大于1,这意味着它对结合残基的正确预测率优于交叉预测率。

人类蛋白质组预测的评估

我们评估了DeepDISOBind对人类蛋白质组中无序的DNA和RNA结合蛋白的预测

首先,我们从UniProt Version 2019_09中收集人类蛋白质组。这产生了43,789个蛋白质序列。其次,我们通过结合来自相关数据库的全面集合的数据来注释与DNA相互作用的蛋白质,使用流行的VSL2B预测器来识别这些蛋白质的无序子集。如果一个给定的DNA/RNA结合蛋白的假定无序含量大于0.2,我们就将其注释为无序。

因此,我们分别鉴定了1739和1711个无序的DNA和RNA相互作用蛋白。我们选择与注释的DNA和RNA结合蛋白序列相似性<30%的人类蛋白,并用BLASTp进行量化。这就产生了24435种蛋白质。最后,将DeepDISOBind产生的残基/区域倾向性转换为无序RNA和DNA相互作用的蛋白质水平倾向性。

我们使用 ROC 曲线和相应的 AUC 评分评估人类蛋白质组中 DNA 和 RNA 相互作用蛋白的这些蛋白质水平预测(图 4)。DeepDISOBind 的 AUC 分别为 0.72 和 0.82,用于预测人类 RNA 和 DNA 相互作用蛋白,这与测试数据集上的结果一致。

图4. DeepDISOBind预测人类蛋白质组中DNA相互作用蛋白(绿线)和RNA相互作用蛋白(橙线)的ROC曲线。蓝色的ROC曲线用于DeepDISOBind将无序的人类中心蛋白(与许多蛋白质相互作用的蛋白质)与少数蛋白质对象相互作用的人类蛋白质进行分类。

此外,在评估交叉预测和过度预测部分的讨论下,我们评估了蛋白质水平分数的交叉预测的可能性。我们将所考虑的人类蛋白质分成四组:(I)结合DNA但不结合RNA的蛋白质,(Ii)结合RNA但不结合DNA的蛋白质,(Iii)既结合RNA又不结合DNA的蛋白质,以及(Iv)既不结合DNA也不结合RNA的蛋白质。接下来,我们比较从DeepDISOBind的预测中提取的DNA和RNA相互作用的蛋白质水平分数,以研究交叉预测。

蛋白质集合1内蛋白质水平的DNA结合倾向高于蛋白质水平的RNA倾向,差异有统计学意义(P值<0.01)。同样,集合2的蛋白质水平RNA结合倾向显著高于相应的DNA倾向(P值<0.01)。有趣的是,蛋白质水平的RNA和DNA结合倾向在集合3中没有显著差异(P值=0.66)。

这些结果表明,我们在蛋白质水平上聚合的 DeepDISOBind 预测成功地区分了 DNA结合蛋白 和 RNA 结合蛋白。

最后,我们通过比较集合1和集合4的蛋白质水平DNA结合倾向和集合2和集合4的蛋白质水平RNA结合倾向,进一步检验了预测DNA和RNA结合蛋白的准确性。在这两种情况下,集合1和集合2的DNA和RNA相互作用的蛋白质水平倾向分别高于集合4,这些差异具有统计学意义(P值<0.01)。

我们还评估了DeepDISOBind是否准确地预测了无序的蛋白质相互作用。由于大多数人类蛋白质与蛋白质相互作用,因此几乎不可能可靠地识别非蛋白质结合蛋白;我们使用 DeepDISOBind 的预测来区分与许多蛋白质对象相互作用的无序中心蛋白和与相对较少蛋白质相互作用的蛋白质。

首先,我们从 mentha 资源中收集了一组全面的人类蛋白质组 PPI 注释,该资源结合了来自多个相关源数据库的数据。其次,我们处理相应的一组17598个蛋白质相互作用的蛋白质,以提取高度混杂的HUB蛋白质(25%的蛋白质具有最高的PPI计数)和与少数蛋白质对象相互作用的蛋白质(25%蛋白质与最少的蛋白质相互作用)。我们使用VSL2B来鉴定无序HUB蛋白的子集。最后,我们使用与评估核酸结合蛋白相同的方法,将DeepDISOBind产生的残基/区域水平的蛋白质结合倾向转换为无序蛋白质相互作用的蛋白质水平倾向。图4中蓝色的ROC曲线量化了DeepDISOBind的预测质量,DeepDISOBind用于区分无序的中心和与少数蛋白质相互作用的蛋白质。DeepDISOBind获得的AUC为0.76,与测试数据集上的结果相似。

4.结论

IDR与包括核酸和蛋白质在内的各种对象分子相互作用。数百个相互作用的IDR的实验数据的可用性促进了机器学习模型的发展,这些模型从这些数据中学习,以预测数百万未注释的蛋白链的相互作用。

然而,只有一种工具可以用来预测与核酸的无序相互作用,最近的CAID实验认为需要对相互作用区域进行新的、更准确的预测。为此,我们开发了DeepDISOBind,一个新的多任务深度学习器,它提供了对DNA、RNA和蛋白质结合的IDR的准确预测。在独立(低相似性)测试数据集上的并排评估显示,DeepDISOBind在统计上比单任务拓扑结构有显著的改进。这些改进在三相互作用类型中都是一致的。对人类蛋白质组的评估表明,DeepDISOBind准确地识别了HUBS和DNA和RNA结合蛋白。

参考资料

Fuhao Zhang, Bi Zhao, Wenbo Shi, Min Li, Lukasz Kurgan, DeepDISOBind: accurate prediction of RNA-, DNA- and protein-binding intrinsically disordered residues with deep multi-task learning, Briefings in Bioinformatics, 2021;, bbab521, https://doi.org/10.1093/bib/bbab521

--------- End ---------

na

0 人点赞