单细胞RNA测序(scRNA-seq)和Bulk RNA测序(RNA-seq)是探索细胞异质性、发育分化和疾病机制的重要技术。由于测序平台的技术限制以及酶解过程造成的细胞丢失,某些细胞类型在单细胞测序中有时会被遗漏,例如足细胞、中间祖细胞、神经元等。因此,开发能够应对单细胞数据中“遗漏”情况的算法工具,对于推动单细胞组学分析具有极其重要的意义。
此外,尽管组学算法的种类和数量不断增加,但选择合适的工具——既要准确无误,又要易于使用,且适合特定分析需求——却变得越来越困难。用户在学习和应用各种组学算法时,往往需要适应不同的系统,这不仅增加了计算和分析的复杂性,也降低了效率。因此,当前单细胞组学分析领域急需一个全面的算法框架,该框架应能简化对bulk RNA-seq和scRNA-seq分析的多种模型和算法的访问,从而提取关键的生物学洞见,推动科学研究的深入发展。
2024年7月18日,北京科技大学化学与生物工程学院杜宏武团队和中山大学生命科学学院熊远妍团队在《Nature Communications》杂志在线发表了题为“OmicVerse: a framework for bridging and deepening insights across bulk and single-cell sequencing”的研究工作。该工作提出了一种被称为 BulkTrajBlend(属于OmicVerse算法框架的一部分) 的单细胞轨迹混合算法,有效地插值并恢复了scRNA-seq数据中“遗漏”细胞的连续性。此外,OmicVerse 提供了一个广泛的工具包,用于bulk和scRNA-seq分析,OmicVerse封装了一系列相关分析算法,使其可以简化计算过程,促进精致的数据可视化。
OmicVerse 的相关代码和教程可以在以下链接中获得:starlitnightly.github.io/omicverse/
概览图: OmicVerse框架内容
文章主要内容
如图所示,BulkTrajBlend 在自编码器(AE)和 β-变分自编码器(β-VAE)的基础结构上进行了创新。这些改进包括:构建 Bulk RNA-seq 生成器:我们利用AE构建了一个bulk RNA-seq 的生成器。我们将 bulk RNA-seq 的细胞比例空间建模为编码器的输出和解码器的输入。然后使用从 scRNA-seq 生成的带有真实细胞比例标签的模拟 bulk RNA-seq 作为编码器的输入,以训练模型。训练 β-VAE:在利用真实 scRNA-seq 训练 β-VAE 时,编码器的输出包括 V(细胞类型比例)和 W(与细胞类型相关的生成因子)。我们增加了一个损失函数,以最小化 V 与真实细胞类型比例之间的关系。在模型训练结束时,我们获得了每个细胞的 W,并计算了每种细胞类型的 W 平均值以代表该细胞类型。生成 scRNA-seq 数据:我们使用 AE 计算出的真实细胞类型比例 V 和 β-VAE 获得的与细胞类型相关的生成因子 W 作为输入,用于 β-VAE 生成 scRNA-seq 数据,并采用无监督聚类来去噪和细化 β-VAE 的结果。图神经网络(GNN)的应用:我们利用图神经网络对生成的 scRNA-seq 数据进行采样,从而识别重叠的细胞亚群。采样这些重叠的细胞亚群有助于我们在不丢失细胞连续性的情况下插入“遗漏”的细胞。通过这些方法,BulkTrajBlend 能够有效地处理 scRNA-seq 数据中的“遗漏”问题,并在重建的单细胞景观中识别出那些原本可能被遗漏的细胞类型。
图1 BulkTrajBlend 算法的模型结构。
此外,研究者们精心构建了手动模拟的“遗漏”数据集,并评估了 BulkTrajBlend 在真实数据集中重建发育轨迹的能力。在小鼠胰腺发育的数据集中,PAGA 图显示 Ngn3High EP 细胞分化为前内分泌细胞的基线概率为0.04。在相应的“遗漏”数据集中,这一概率降至0。然而,通过 BulkTrajBlend 的插值处理,该概率被提升至0.035。这些分析结果共同突显了 BulkTrajBlend 在精确重建真实发育轨迹方面的显著效果。
图2:scRNA-seq数据中模拟“遗漏”细胞的发育轨迹重建。
除了评估 BulkTrajBlend 算法的性能,作者还介绍了 OmicVerse 在转录组学分析中的潜力。OmicVerse 集成了广泛的 bulk RNA-seq 分析算法,包括用于批次校正的 pyComBat 算法,使用 Deseq2 进行差异表达分析的 pyDEG 算法,使用 STRING web API 进行蛋白质-蛋白质相互作用网络分析的 pyPPI 算法,基因共表达网络分析的 pyWGCNA 算法,基因集富集分析的 pyGSEA 算法,以及用于癌症基因组图谱(TCGA)数据分析的 pyTCGA算法。
图3:利用OmicVerse进行bulk RNA-seq数据分析的全面概述。
OmicVerse 整合了一系列常用的scRNA-seq 算法,包括 pyHarmony、pyCombat 和 scanorama 算法用于批次校正;更新至 CellMarker 2.0 和 CancerSEA 的 pySCSA 算法用于自动细胞类型注释;CellPhoneDB 用于分析细胞间相互作用;pyVIA 用于推断细胞轨迹;AUCell 用于基于曲线下面积的基因集评分评估; scDrug 用于药物预测。OmicVerse 框架还引入了 SEACells 进行元细胞分析,有效降低scRNA-seq数据的噪声。重要的是,OmicVerse统一了所有上述方法的输入数据格式,允许用户使用 Anndata 格式进行分析,显著提升了可视化效果,使结果更加美观。
图4:OmicVerse是一个用于scRNA-seq分析的综合分析平台。
scATAC-seq 与 scRNA-seq 数据的联合分析是揭示转录调控复杂性的关键。OmicVerse 通过结合 GLUE 和 MOFA,揭示了转录调控的动态变化。在 OmicVerse 平台中,基于GLUE的多组学配对算法被用来整合和配对 scRNA-seq 和 scATAC-seq 数据。对于配对的单细胞多组学的分析,OmicVerse 整合了 MOFA 的核心算法,简化了数据分析和可视化的复杂性,并且这些操作都可以通过极少的编程实现。、
图5:OmicVerse利用MOFA和GLUE整合多组学数据分析。
启发与展望
综上所述,本研究提出了一种名为 BulkTrajBlend 的单细胞轨迹混合算法,旨在恢复 scRNA-seq 数据中“遗漏”细胞的连续性。此外,本研究还开发了 OmicVerse框架,专门用于 bulk RNA-seq 和 scRNA-seq 数据分析。OmicVerse 的算法文档为每个算法提供了详尽的应用程序编程接口(API)参考,并附有教程,详细说明了它们的功能、局限性以及如何与其他 bulk 和 scRNA-seq 分析工具整合使用。OmicVerse 还拥有全面的开发人员文档,指导用户如何按照一致的开发逻辑向OmicVerse 生态系统添加工具。
在过去一年的审稿过程中,OmicVerse 不断更新和迭代,已经整合了近40种用于 bulk、 scRNA-seq 和空间转录组学分析的工具,构建了一个全面的转录组学分析框架。 最终,OmicVerse 的目标是成为推动批量和单细胞测序社区发展的重要力量,鼓励各种模型的原型设计,建立 RNA-seq 分析的标准,并拓展科学探索的边界。
北京科技大学化学与生物工程学院杜宏武教授,中山大学生命科学学院熊远妍副教授,北京科技大学大兴研究院特聘研究员幸岑璨博士和2022级博士研究生曾泽华为本文的共同通讯作者。北京科技大学化学与生物工程学院2022级博士研究生曾泽华,清华大学深圳国际研究生院2022级硕士生马雨晴和北京科技大学高等工程师学院2019级本科生胡磊(现为西湖大学生命科学学院2023级博士研究生)为本文的共同第一作者(以上三名同学均在北京科技大学取得本科学位)。此外,除共同第一作者和通讯作者外,本文其他作者均为北京科技大学在校本科生。
该工作得到了科学技术部、北京科技大学本科生科研创新项目(SRTP)联合资助。
引文:Zeng, Z., Ma, Y., Hu, L. et al. OmicVerse: a framework for bridging and deepening insights across bulk and single-cell sequencing. Nat Commun 15, 5983 (2024).