深度学习~11+高分疾病相关miRNA研究新视角

2022-06-24 10:18:41 浏览数 (1)

导语

数据库中已验证的miRNA-疾病关联严重不足,使用传统的生物学实验方法识别新的miRNA-疾病关联成本高且具有一定的盲目性。

背景介绍

目前,深度学习已经被广泛应用在对疾病的各种机制的研究中,今天小编为大家带来的这篇文章,提出了一种基于自动编码器(DFELMDA)的深度森林集成学习的新计算方法来预测 miRNA 与疾病的关联。文章于2022年五月份发表在《Briefings in Bioinformatics》上,影响因子为11.622,文章题目为:Identification of miRNA–disease associations via deep forest ensemble learning based on autoencoder。

数据介绍

本研究中使用的数据集从 HMDD v2.0 数据库下载,数据包括 495 种 miRNA、383 种疾病和 5430 种经实验验证的 miRNA-疾病关联。

结果解析

01

基于自编码器的深度森林集成学习模型‍

在本研究中,提出了一个 DFELMDA 来预测 miRNA 与疾病的关联。DFELMDA 分三个主要步骤进行:(i)提出了一种新的特征表示策略,以获得相同 miRNA-疾病关联的不同表示来训练模型,(ii)基于 miRNA 和疾病构建两个深度自编码器,用于提取低维特征表示‍(iii)RF 预测了两种类型的 miRNA-疾病关联,并结合到最终结果中‍。DFELMDA 的流程图如图1所示。

图 1

02

自编码器的训练

在本研究中,训练了两个具有相同结构(图 2)的自动编码器,用于从 miRNA 和疾病中提取特征的低维表示。具体来说,模型训练涉及两个过程:编码和解码。在编码阶段,将两种类型的 miRNA-疾病关联的高维特征表示馈送到编码器,以压缩特征并降低维度。在解码阶段,解码器尝试将低维表示 H 恢复为与输入特征表示相同的外观。

图 2

03

通过RF预测miRNA与疾病的关联

为了避免特征维度和特征质量对miRNA-疾病关联预测的不良影响,本研究选择RF作为分类器。本研究中,实验数据集由自动编码器输出的 128 维特征向量集表示。给定训练数据,步骤如下:1)从训练集中以放回的形式采样若干个样本,进行K次采样,训练出K个分类回归树(CART)决策树。2)利用基尼系数计算的最优分割变量,通过节点分裂构建CART决策树。3)通过重复前面的步骤K次获得K个CART决策树。4) 根据 K CART 决策树获得的结果,通过多数规则预测 miRNA-疾病关联。RF的示意图如图3所示。

图 3

04

方法比较

本研究进行交叉验证实验,使用常规指标研究 DFELMDA 的性能,并实施案例研究以进一步评估 DFELMDA 预测 miRNA-疾病关联的能力。为了评估 DFELMDA 在发现潜在 miRNA-疾病关联方面的卓越性能,将 DFELMDA 与几种先进的方法(TCRWMDA、RLSMDA、基于核脊回归的 miRNA-疾病关联预测(EKRRMDA)、改进的基于协同过滤的 miRNA-疾病关联预测(ICFMDA)和用于 miRNA 疾病关联预测的图形自动编码器模型(GAEMDA))进行了比较。

DFELMDA 实现的 5 倍 CV 的 ROC 曲线如图 4 所示。很明显,与其他五种方法相比,DFELMDA 在 AUC 方面具有最佳性能。在 5 倍 CV 中,DFELMDA 的 AUC 达到 0.9552,而三层异构网络结合不平衡随机游走的 MiRNA-疾病关联预测算法 (TCRWMDA)、RLSMDA、基于内核岭回归的集成 MiRNA-疾病的 AUC关联预测 (EKRRMDA)、改进的基于协同过滤的 miRNA-疾病关联预测 (ICFMDA) 和用于 miRNA-疾病关联预测的图自动编码器模型 (GAEMDA) 分别为 0.9208、0.8737、0.9307、0.9043 和 0.9353。

图 4

为了进一步验证 DFELMDA 的能力,本研究进行了10 倍 CV 。如图 5 所示,DFELMDA 达到 0.9560 的平均 AUC,即 10 倍 CV 的平均值为 0.9584、0.9581、t0.9614、0.9628、0.9582、0.9502、0.9582、0.9567、0.9571 和 0.9532。

图 5

05

与不同分类器模型的比较

为了进一步评估该方法的性能,本研究将其与四种不同的分类模型[决策树、KNN、朴素贝叶斯和深度神经网络 (DNN)] 进行了比较。结果,决策树、KNN、朴素贝叶斯和DNN得到的AUC分别为0.9150、0.9285、0.9222和0.9285。不同分类器模型的 ROC 曲线如图6所示。

图 6

06

实例探究

为了进一步证明 DFELMDA 在识别新的 miRNA-疾病关联方面的准确性,本模型在复杂人类疾病的案例研究中实施,即来自 HMDD 的结肠肿瘤 (CNs)、肺肿瘤 (LNs) 和乳腺肿瘤 (BNs) 。从数据库中获得的已知 miRNA-疾病关联作为 DFELMDA 的训练集,并根据预测结果对所研究疾病的候选 miRNA 进行优先排序。此后,在 HMDD、dbDEMC 和 microRNA 癌症协会数据库(miRCancer)数据库中选出前 50 个候选 miRNA 并一一检查。表1为在 CN、LN 和 BN 中发现的前 10 位 miRNA 。

表 1

本研究还选择了 14 种与更多 miRNA 相关的特定疾病。如表 2 所示,DFELMDA 取得了可观的 AUC 值,尤其是巴雷特运动与血管疾病‍,AUC 分别为 0.9579 和 0.9670。综上所述,从上述结果不难看出,DFELMDA 在交叉验证和案例研究方面具有可靠的能力。

表 2

小编总结

本研究开发了一种通过 DFELMDA 的新计算方法来推断 miRNA-疾病关联。首先,应用一种新的特征表示策略来获得相同 miRNA-疾病关联的不同类型的表示(来自 miRNA 和疾病)。然后,构建了两个基于 miRNA 和疾病的深度自编码器来提取低维特征表示。最后,通过 RF 预测两种类型的 miRNA-疾病关联,并将其组合成最终结果。实验结果和案例研究都表明,DFELMDA 是一种强大的计算工具,可用于新的 miRNA-疾病关联预测。

0 人点赞