多组学数据集的综合分析已被证明在癌症研究和精准医学中是非常有价值的。然而,整合不同组学的多个数据集仍然是一个挑战。近日,《Nucleic Acids Research》发表了一种新的MO/MD问题算法——INTEND,旨在整合涵盖不相交样本集的基因表达(GE)和DNA甲基化(DM)数据集。。
INTEND是什么?
INTEND是一种整合GE和DM数据集的新算法,分两个阶段工作:1)训练阶段接收由在同一组样本上测量的GE和DM profiles组成的训练数据作为输入。该算法使用这些数据来学习组学之间的联系。这将使其稍后能够根据给定的甲基化谱准确预测特定基因的表达水平。2)嵌入阶段,INTEND的输入来自两个不相交的队列,表示为T1和 T2。它们包括T1的DM矩阵和T2的GE矩阵。它分三个步骤进行:(i)根据 DM 数据创建 T1 的预测 GE 矩阵;(ii) 根据 T1 的预测 GE、T2 的 GE 和初步步骤中训练的模型选择基因子集;(iii) 共同减少所选基因集上两个 GE 数据集的维度。
INTEND概述
INTEND的性能测试
开发团队通过将INTEND与四种最先进的MO/MD集成方法(LIGER, Seurat v3, JLMA和MMD-MA)进行比较来评估其性能。使用11个TCGA癌症数据集,涵盖4329名患者,在多个整合任务中测试算法。同时还展示了其在识别SKCM(皮肤黑色素瘤)癌症亚型和使用来自不同个体的两个单组学数据集联合分析LUAD(肺腺癌)方面的实用性。
当整合单一和多种癌症类型的数据时,在所有测试数据集上,无论是FOSCTTM评分还是根据整合结果对癌症类型的分类,INTEND都显示出显著的优势。
开发团队证明了INTEND对SKCM患者非重叠人群测量的GE和DM样本之间传输生物信息的潜力。当使用DM和GE数据的集成结果时,对DM样本进行聚类,比仅使用原始DM数据获得了更高的聚类存活分离显著性。
另一个典型用例中,开发团队在来自不同来源的两个肺腺癌数据集的联合分析中测试了INTEND。INTEND展示了其揭示 DNA甲基化与基因表达调控之间联系的潜力。
未来,INTEND可能在两个方向做扩展:以类似的方法整合除GE和DM之外的其他组学对;在 INTEND 嵌入阶段的第一步之后,结合解决 SO/MD 集成问题的算法中的方法,从而产生预测的GE矩阵。
INTEND的代码可在如下链接获取: