作者 | 郁莹莹 编辑 | 汪逢生 校对 | 李仲深
今天给大家介绍Jaswinder Singh等人在Bioinformatics上发表的文章”Improved RNA secondary structure and tertiary base-pairing prediction using evolutionary profile, mutational coupling and two-dimensional transfer learning”。最近发现的许多非编码RNA(特别是长非编码RNA)改变了我们对RNA在生物体中作用的看法,但是由于现有的实验技术无法有效地解决高分辨率的二级和三级结构,阻碍了我们对它们的理解。另一方面,通过对大量近似数据的深度学习,然后是对高分辨率三维结构的金标准碱基配对结构的迁移学习,对RNA二级结构的计算预测进行了急需的改进。本文将这种基于单序列的学习扩展到使用进化概况和突变耦合,不仅可以大大改进规范碱基对(RNA二级结构),而且可以进一步改进与三级碱基对相关的碱基对,如pseudoknots, non-canonical 和 lone 碱基对。特别的,本文模型对1000多个同源序列RNA预测非常精确,得到大于0.8的F1-score,本文通过结合没有任何修改的人工的,但功能相同的同源序列,显著提高了碱基配对预测。总体上来说,本文的全自动方法为科学界提供一个新的强大工具,不仅可以捕获二级结构,而且可以捕获用于构建三维模型的三级碱基配对信息,它还强调了通过使用大量的自然和/或人工同源序列来精确解决碱基配对结构的未来。
一、研究背景
理解非编码RNA的功能机制十分需要RNA的三级结构,而RNA三级结构是在预先形成的二级结构上折叠,其中包含一组canonical碱基对以及在noncanonical 碱基对, non-nested 碱基对 (pseudoknots), lonepairs和d base-multiplets碱基对的三级相互作用。因此,从一维到多维再到高通量探测的实验技术十分注重二级结构和三级碱基配对信息。然而,对所有基孔的精确高分辨率测定仍然使用x射线晶体学、核磁共振(NMR)或低温电子显微镜,仅适用于一小部分非编码RNA的子集。
为了克服实验的局限性,开发了许多RNA二级结构预测的计算方法。总体上可以分为基于单序列和基于多序列对齐的预测因子。然而,这些预测器的整体性能仍然很低。并且这些基于折叠的RNA二级结构预测因子的准确性在过去的十年中一直停滞不前,但在蛋白质中,通过应用深度学习技术的序列谱和同源曲的直接突变耦对蛋白质接触图预测已经取得了巨大改进,并在蛋白质结构预测方面取得了显著进展。SPOT-RNA是第一个将RNA二级结构作为接触图预测问题来处理的人,并且从bpRNA数据集中收集的大量近似二级结构进行初始训练,随后通过使用一小组非冗余的RNA晶体结构来进行迁移学习来避免过拟合。这种基于单序列的方法比标准和非标准碱基对的RNA预测基于单序列二级结构的方法有了显著的改进,甚至比现有的基于多序列对齐的技术更准确。
本文试图通过使用序列剖谱和被证明在蛋白质接触图预测十分有效的直接突变耦合来超越之前的SPOT-RNA方法。由此得到的方法被称为SPOT-RNA2,在所有类型的碱基对上都优于SPOT-RNA,在三级 non-canonical, pseudoknot and lone 碱基对上的改进最大。甚至可以直接使用由深度突变扫描产生的人工同源序列来改善碱基对的预测。
二、模型与方法
2.1 输入特征
如图1(A)所示,本文分别使用两个基于单序列和两个基于进化的特征作为输入。基于单序列的特征包括基于Lx4大小的one-hot编码和LXL大小的从基于单序列的线性划分(LinearPartition)方法中预测的碱基对概率。两个基于进化的特征是尺寸为Lx4的位置特定分数矩阵(PSSM)和尺寸为LxL的二维直接耦合分析(DCA)信息。
将PSSM(Lx4)和one-hot编码(Lx4)使用RaptorX-Contact中所述的外部连接函数转换为二维(2-D)特征,外部连接后的所有一维特征(LxLx16)(PSSM、one-hot编码)和二维特征LinearPartition的LxL碱基对概率、 GREMLIN的LxL的DCA信息)连接在一起,和成一个LxLx18维的特征向量作为深度神经网络的输入。
2.2 深度神经网络
如图1(B)所示,首先经过滤波器尺寸为3x3,深度为64的初始卷积层,后面是NA个预激活的ResNet块,1层完全连接层和一个输出层。其中,ResNet块由两个扩张的卷积层组成,备用滤波器是尺寸为k1xk1和k2xk2的64个滤波器,在每个卷积层中都使用了d的膨胀率。并且采用ELU激活函数,随后利用层归一化技术以及25%的dropout来避免训练数据过拟合。最终ResNet块的输出也使用ELU激活函数,通过层归一化和25%的dropout值。在NA个ResNet块之后,使用了具有512个节点的完全连接(FC)层。同样,FC层的输出用ELU激活函数激活,并使用层归一化技术,以及50%的dropout率来避免可能的过拟合。最后,使用了具有单个节点和 sigmoid激活函数的输出层,并将特征图从FC层转换为大小为LxL的上三角形底面概率矩阵,其中L是序列的长度。
2.3 Residual net module
如图1(C)所示,基于图1(B)所示的深度神经网络结构,使用bpRNA数据集(TR0、VL0和TS0)进行初始学习,最后根据验证集(VL0)的最佳性能进行选择三个模型。接下来,通过使用TR1集进行进一步的再训练,从而对最初学习的模型进行迁移学习。在迁移学习过程中,除了膨胀速率(d)外,还使用了相同的超参数,因为改变其他超参数并没有产生更好的性能。此外,所有的参数都在没有冻结任何参数的情况下进行再训练,因为通过所有参数的再训练比某些层的参数冻结效果更好,以上数据都附在本文补充材料中。随后,本文从三个最初训练的模型中重新训练了四个模型,如通图1(C)和所示,这四种模型仅针对验证集(VL1)进行了优化。
图1(C)所示的每个模型的输出为二维(2-D)LxL上三角形矩阵,其中L是输入RNA序列的长度。这个上三角形基质表示每个核苷酸与一个序列中的任何其他核苷酸配对的可能性。对4个单独模型的输出进行平均,以获得最终输出。通过一个阈值来决定核苷酸是否与其他核苷酸形成h键,本文仅通过最大化验证集(VL1)的马修斯相关系数(MCC)值来优化阈值。
图1. (A)输入特征 (B)SPOT-RNA2的模型架构 (C)迁移学习示意图
三、实验结果
3.1 特征贡献
本文全部使用的特征包含 Single Sequence(SS)特征(one-hot编码)。由PSSM组成的sequence profiles(SP)特征,来自GREMLIN的DCA信息以及单序列折叠方法线性划分预测碱基对概率(LP)。这些特征的贡献是通过直接使用高分辨率非冗余训练集(TR1)训练的基线模型,并通过验证集(VL1)进行验证,随后由来自于PDB的测试集TS1进行测试得到的性能指标进行检验的。
如图2加入PSSM使VL1和TS1的F1评分提高20%以上,加入DCA可以提高16%以上。既包含PSSM,又包含DCA的模型,与单独添加PSSM或DCA特性相比,性能在VL1和TS1上分别进一步提高了3%和2%。此外,结合了基于单序列和LinearPartition碱基对概率的模型,在验证(VL1)和测试集(TS1)的F1分数方面提供了超过3%的额外改进。
最后,通过首先在大的bpRNA数据集上训练,随后在高分辨率的PDB数据上进行再训练的迁移学习,进一步提高了额外提升了验证(VL1)和测试集(TS1)的1.5%的F1-score。如果使用MCC则可以观察到类似的趋势。由于所有基于单序列和基于进化信息的特征都比基线模型(model-0)上的验证集(VL1)和测试集(TS1)有了一致的改进。
图2. 不同特征下基线模型的性能比较
3.2 集成学习和迁移学习的效果
训练集合学习使用了所有的特征,如图3所示,通过比较MCC和F1,显示集成模型在验证集有很小的改进,但在测试集有更大的改进(在F1和MCC值上提升2%)。这可能是因为模型超参数针对VL1进行了优化,因此,对VL1的单个模型的预测稍微准确一些,这使得集成更难以改进。此外,在集成平均后的验证和测试集上的类似性能,表明它具有更好的泛化能力。
为了检查迁移学习的有用性,本文还在一个小的PDB数据集上直接训练了所有4个模型。在VL1和TS1上,所有4个模型的得分都比迁移学习模型低1-3%。迁移学习之前最初训练的模型在TR0上训练,在VL0上验证,在TS0上测试性能,所有这些数据都来自bpRNA数据集。这些模型在VL0和TS0上取得了显著而相似的性能,F1分数在0.726和0.738之间,但在晶体结构测试集TS1上的性能相对较差,对于所有3种模型都在0.62到0.66之间。这一结果证实了bpRNA数据集中不太完美的注释,以及由于高分辨率结构的数量有限而进行迁移学习的必要性,上述数据都在补充材料中。
图3. 集成模型与单独模型的性能比较
3.3 与现有技术的比较
如下图4,本文在三个独立的测试集(TS1、TS2和TS3)上的SPOT-RNA2与9个基于对准的预测因子和17个基于单序列的预测因子进行了比较。与其他预测因子相比,TS1从67个RNA减少到65个RNA,TS2从39个减少到36个RNA,因为很少有预测因子无法预测包含无效或缺失核苷酸的序列。
在测试集TS1、TS2和TS3上,SPOT-RNA2比基于第二好的基于对准的预测因子分别提高了10%、2%和9%。与基于对齐的预测器相比,基于单序列的预测器在测试集TS1和TS3上获得相对较低的F1分数,因为TS1和TS3有更多的进化信息。正如预期的那样,由于本测试集中有限的进化信息,TS2上基于单序列的预测器优于基于对齐的预测器的表现。此外,与TS1和TS3相比,TS2由较少数量的非规范和伪结碱基对组成组成,这使得TS2对大多数预测因素更容易预测。重要的是,SPOT-RNA2在三个测试集中表现出一致的性能,无论不同的分布如何。对三个测试集观察到的性能改进在统计学上具有重要意义。
图4. SPOT-RNA2与现有方法比较
四、总结
本文受蛋白质接触图预测成功的启发,基于单序列的SPOT-RNA的方法,改进得到SPOT-RNA2。利用进化衍生的序列谱和突变耦合进行RNA二级结构和三级碱基配对预测。这种改进对于包含三级接触的复杂碱基配对模式,如non-canonical 碱基对, pseudoknots, lone-pairs 和base triplets的RNA起最重要作用。更重要的是,SPOT-RNA2对Neff>1000(14/16RNA,87.5%)进行了高精度的预测(F1-score>0.8)。因此,进化派生的序列轮廓和突变耦合对高精度的RNA碱基配对预测起着重要作用。并且与经典的热力学模型相反,SPOT-RNA2可以受益于与训练集的进化相似性,并且可以捕获序列特定的二次结构偏好。
SPOT-RNA2也有很多限制,首先由于使用进化信息,在大于1000的序列中提取信息以及提取的计算时间都是挑战。此外,定位同源序列并执行多个序列对齐是耗费时间的,特别是当RNA序列库呈指数级扩展时。减少计算时间的一种方法是为同源序列的最大数量设置一个较小的数量。其次许多RNA没有许多序列同源性。
但是SPOT-RNA2可以更准确地预测RNA碱基对,为改善RNA结构的预测提供了可能性。最近的工作表明,使用预对齐Rfam序列的直接耦合分析产生的接触点对预测的三维结构有很大的改进,所以这项工作还有额外的意义,因为SPOT-RNA2比GREMLIN等直接耦合方法有了很大的改进,F1-score上,canonical碱基对提升了84%, non-canonical碱基对提升了521%,pseudoknot碱基对提升了582%,lone-pairs则提升了1521%。更重要的是,本文方法并不限于Rfam家族中列出的RNAs,因此,SPOT-RNA2将有助于扩展可用二次结构约束精确预测三维结构的RNA。
代码
https://github.com/jaswindersingh2/SPOT-RNA2
Web Server
https://sparks-lab.org/server/spot-rna2/
参考文献
https://academic.oup.com/bioinformatics/advance-article/doi/10.1093/bioinformatics/btab165/6168141