编译 | 曾全晨 审稿 | 王建民
今天为大家介绍的是来自Chang-Qing Yu和Li-Ping Li 团队的一篇论文。越来越多的证据表明circRNA通过与miRNA相互作用在疾病的产生和治疗中发挥着重要作用。因此,准确预测潜在的circRNA-miRNA相互作用(CMI)十分重要。然而,传统的湿实验耗时费力,并且结果会受到客观因素的影响。在本文中,作者提出了一个计算模型BCMCMI,BCMCMI在两个CMI预测的基准数据集上相比其他最先进的模型取得了优越的结果。
环状RNA(circular RNA)是一种环状RNA分子,与传统的线性RNA不同,它的两端通过共价键连接在一起,形成一个闭环结构。尽管环状RNA在1976年被发现,但近年来受到了广泛的关注。最初,环状RNA被认为是剪接错误的产物。然而,随着技术的发展,越来越多的证据表明环状RNA在细胞中具有重要的生物学功能,如调节基因表达、RNA剪接和转录。环状RNA具有多种生物学作用,已被证明可以调节基因表达、协调细胞分化和增殖,并参与程序性细胞死亡的处理。此外,环状RNA已被认为与多种疾病的发病机制有关,包括癌症和神经系统疾病。miRNA是一类长度为18-25核苷酸的短RNA分子,具有非编码RNA的特性。miRNA在细胞周期调节、细胞分化、凋亡和代谢调节等多个生物学过程中起关键作用。2013年,研究人员发现某些环状RNA与特定的miRNA结合,作为“海绵”调节miRNA的活性。随着科学的不断发展,越来越多的研究表明在一系列疾病过程中,环状RNA-miRNA相互作用(CMI)的重要性。
图 1
随着对环状RNA和miRNA的深入研究,越来越多的生物学实验证实了它们之间的相互作用。预测CMI的生物学实验面临高技术难度、耗时耗力和高成本等问题。随着算法的不断改进和计算实验数据集的扩大,预测结果的准确性和可靠性得到了显著提高。因此,计算实验已成为预测CMI的一种快速高效的方法。尽管先前方法的预测效果很好,但仍然有一些特征因素尚未考虑。为了解决这些问题,作者提出了BCMCMI,将环状RNA和miRNA的序列特征、相似性特征和拓扑特征集成在一起。具体而言,作者首先将序列视为句子,使用BERT进行双向预训练,深度挖掘语义中隐藏的序列特征。为了全面捕捉拓扑特征,作者基于余弦相似性构建了异构网络。然后,使用两个自定义设计的经典元路径来遍历网络并获取拓扑特征。之后将这些特征整合在一起,获得环状RNA和miRNA的高级表示。最后,使用XGBoost分类器对获取的高级特征进行预测。BCMCMI的流程图如图1所示。
数据来源
表 1
在实验中使用了两个常用的数据集来预测CMI。第一个数据集来自CircBank数据库。在滤除无效数据后,最终获得了2115个circRNA和821个miRNA之间的9589组关系。第二个数据集是CMI-9905,其中包括了2346个circRNA和926个miRNA之间的9905组关系。文章主要使用的数据集是CMI-9905;详情请参见表1。
模型
图 2
在生物信息学领域,序列特征具有重要意义。近年来,随着计算机技术的快速发展,越来越多的算法和模型被应用于序列特征的分析和预测。来自语言模型的嵌入(ELMo)是一种基于RNN的双向语言模型,它使用深度双向LSTM网络来学习单词的语言表示。Transformer是一种基于注意力机制的神经网络架构,用于处理序列数据,尤其是在自然语言处理任务中应用广泛。受到ELMo在上下文依赖建模方面的能力启发,BERT可以同时考虑一个词的左右上下文信息,以更准确地捕捉其语义和上下文。BERT采用了Transformer的自注意机制,通过预训练和微调为各种自然语言处理任务提供强大的表示能力。总体而言,BERT是基于Transformer架构的预训练语言模型,其核心思想是通过双向建模同时考虑左右上下文信息,从而学习每个单词的上下文相关表示。在模型中,BERT被用于提取circRNA和miRNA序列的隐藏特征。通过将circRNA和miRNA序列作为输入,可以使用预训练的BERT模型获得它们在语义空间中的表示。这些表示可以捕捉circRNA和miRNA序列中的语义信息和上下文关系,包括序列中的重要特征和模式(图2)。
为了更有效地学习异质网络中节点的拓扑网络特征表示,作者基于相同类型节点之间的余弦相似度构建了异质网络。考虑到实验结果、时间限制和性能考虑,最终选择将阈值设定为0.8。通过选择余弦相似度大于0.8的关系对,作者构建了两个同质图,即circRNA-circRNA和miRNA-miRNA。在异质图中,节点的特征表示基于功能相似性。然后,利用已知的circRNA和miRNA之间的相互作用关系,将这两个同质图连接成异质图。
Metapath2vec是一种用于学习异质网络中节点向量表示的图嵌入方法。与其他方法相比,Metapath2vec可以更好地保留节点之间的相似性特征,从而更好地表示不同节点类型之间的关系。通过学习节点在元路径上的概率分布,Metapath2vec可以学习节点的向量表示。在文章中,作者引入了两个元路径,“cmcmc”和“ccmmcc”。这两个元路径捕捉了不同类型节点之间的顺序关系,并提供了不同的语义信息。Metapath2vec按照元路径的顺序进行随机游走,并输出生成的路径序列。游走的长度被设置为200。在元路径“cmcmc”下,从当前circRNA节点的连接列表中随机选择一个miRNA节点,并将其添加到路径序列中。然后,从这个miRNA节点的连接列表中随机选择一个circRNA节点,并将其添加到路径序列中。这个循环一直持续,直到路径达到预设的长度。生成的路径序列被用于使用Word2vec模型学习节点嵌入表示。Word2vec模型基于路径中的上下文信息学习节点的连续向量表示,使得具有相似上下文的节点在嵌入空间中更加接近。作者使用两个独立的Metapath2vec模型分别训练这两种类型的路径序列。通过上述训练的模型,可以获得每个节点的嵌入向量,这些向量捕捉了节点在相应元路径下的特征。
实验部分
表 2
图 3
在这项研究中,作者在CMI-9905数据集上使用了5折交叉验证来评估所提出的框架的性能,并使用多种指标来展示其有效性。实验结果已总结在表2中。表2显示,BCMCMI的平均准确率(Acc.)为83.16%,精确率(Prec.)为80.83%,召回率(Rec.)为86.78%,F1值为83.59%,MCC为66.7%。5折交叉验证的AUC(ROC曲线下面积)分别为91.76%、94.78%、92.18%、91.16%和82.16%,AUPR(PR曲线下面积)分别为91.43%、94.54%、92.04%、89.67%和81.81%。基于CMI-9905的BCMCMI的ROC曲线和PR曲线如图3所示。
表 3
BCMCMI利用多个特征提取模块对数据进行建模。为了更好地评估BCMCMI中不同模块对CMI预测的贡献,进行了一系列消融实验。将BCMCMI中的多个特征拆分成单独的特征,并移除这些单独的特征进行CMI预测。通过评估模型在CMI预测中的性能,使用准确率(Acc.)、精确率(Prec.)、召回率(Rec.)、F1值和MCC,可以比较单独的单一特征模块的预测性能,并确定哪些特征对于准确预测CMI至关重要。具体而言,“without BERT”表示没有circRNA和miRNA的序列特征。“without cos”表示没有circRNA和miRNA的相似性特征。“without Meta”表示没有circRNA和miRNA的拓扑特征。“only BERT”表示仅使用circRNA和miRNA的序列特征。所有实验使用相同的参数和CMI-9905数据集,以确保公平性。详细结果如表3所示。异质网络的拓扑特征对BCMCMI的性能贡献最显著,其次是相似性特征,而序列特征的贡献相对较低。与没有序列特征的模型相比,BCMCMI在性能上稍微更好。总之,将三种特征结合到BCMCMI模型中可以在预测CMI方面获得最佳性能。
表 4
表 5
目前研究人员已经提出了一些用于预测CMI的方法,其中大多数方法都基于CircBank和CMI-9905这两个数据集。作者将所提出模型在这两个数据集上与其他最先进的方法进行了比较。表4展示了在CircBank数据集上将CMIVGSD、SGCNCMI、KGDCMI、GCNCM和JSNDCMI与BCMCMI进行比较的结果。结果表明,BCMCMI在这个数据集上的表现优于其他方法。此外,表5展示了在CMI-9905数据集上将KGDCMI、WSCD、SGCNCMI和JSNDCMI与BCMCMI进行比较的结果。同样,BCMCMI在预测CMI方面表现出更好的稳定性和有效性。总之,尽管BCMCMI在性能上优于许多其他最先进的方法。
结论
作者引入了一种先进的模型,命名为BCMCMI,该模型首次融合了序列特征、相似性特征和拓扑特征来预测CMI。通过BERT的双向编码功能,模型能够更有效地提取环状RNA和miRNA序列的特征信息,这是对于对CMI预测的贡献不容忽视的一个关键因素。双向编码使能够更准确地捕捉序列特征,同时考虑到它们的上下文和背景。通过序列到向量转换方法计算相同类别节点之间的余弦相似度。挑选出具有高相似性的节点对,并与已知的CMI信息结合起来构建异构网络。模型在提取拓扑特征时,在网络中进行随机游走,并通过定义两种不同的元路径输出一系列路径。这些路径序列用于训练一个Word2vec模型,以学习拓扑网络中的节点表示。最后,将序列特征、相似性特征和拓扑特征融合起来,得到高级表示,然后利用XGBoost分类器来预测潜在的CMI信息。结果显示BCMCMI在预测CMI方面非常有效。
参考资料
Wei, M. M., Yu, C. Q., Li, L. P., You, Z. H., & Wang, L. (2023). BCMCMI: A Fusion Model for Predicting circRNA-miRNA Interactions Combining Semantic and Meta-path. Journal of Chemical Information and Modeling.