Cell Reports Methods|用于单细胞多组学数据综合分析的混合专家深度生成模型

2022-11-28 16:34:06 浏览数 (2)

编译 | 林荣鑫 审稿 | 程昭龙,王静

本文介绍由日本名古屋大学医学研究生院系统生物学系的Teppei Shimamura通讯发表在Cell Reports Methods的研究成果:单细胞多组学分析的发展使得在单细胞水平上能够同时检测多个性状,从而对不同组织中的细胞表型和功能提供更深入的见解。目前,从复杂的多模态单细胞数据中推断联合表征和学习多模态之间的关系是具有挑战性的。为此作者提出了一种新的基于深度生成模型的框架(scMM),用于提取可解释的联合表征和跨模态生成。scMM利用混合专家多模态变分自动编码器来解决数据的复杂性。scMM的伪细胞生成策略弥补了深度学习模型可解释性的不足,并且通过实验发现了与潜在维度相关的多模态调节机制。对最新的数据集分析证实了scMM有助于实现具有丰富解释性的高分辨率聚类。此外,与最先进的方法和传统方法相比,scMM的跨模态生成可以实现更精确的预测和数据集成。

1

简介

最新的技术使得能够在单细胞分辨率下同时获取多个组学数据,从而产生“多模态”单细胞数据。利用新兴的多模态单细胞技术进行的研究,在各个领域取得了具有生物学意义的重要发现。然而,这需要克服一些障碍才能从高度复杂的单细胞多模态数据中计算出有用的知识。首先,从可用于下游分析的多种模态中推断低维联合表征是具有挑战性的。其次,尽管多模态单细胞数据可用于训练预测模型,从而学习模态之间的关系,但高精度单细胞数据的多对多预测仍然是一个尚未解决的问题。这些问题主要归因于难以捕捉潜在的共同因素和跨模态关系,并且这些模态在特征上存在显著差异,包括数据分布、维度和稀疏性。

目前已有几种方法可用于单细胞多模态数据的分析。虽然它们的目标是解决潜在特征提取等任务,但它们的性能在不同方面受到限制。基于广义线性模型的方法,如Seurat和scAI,通常无法捕获单细胞数据中的复杂结构。捕获非线性潜在结构的一种有效方法是使用变分自动编码器(VAE),该编码器由一对神经网络组成,其中一个将数据编码到潜在空间,另一个将其解码以重建数据分布。scMVAE和totaIVI是目前基于VAE的单细胞多模态数据分析方法。然而,scMVAE需要在训练前将染色质可及性转换为转录组,这会导致不可忽视的表观遗传信息丢失。此外,这些模型受到深度学习模型的“黑盒”性质影响,使得潜在变量的解释变得困难。最后,这些基于VAE的方法都不是为跨模态的预测而设计的。

为了解决这些限制,作者开发了scMM,这是一种用于单细胞多组学分析的新型统计框架,其专门用于可解释的联合表征推理和跨模态预测。scMM基于混合专家(MoE)多模态深度生成模型,通过不同概率分布对每种模态中的原始计数数据进行建模来实现端到端学习。最近公布的数据集是通过对转录组和表位进行细胞索引测序(CITE-seq),同时对转座酶染色质可及性与RNA表达进行高通量测序(SHARE-seq)产生的,利用该数据集,作者证明了scMM可以有效地提取具有生物学意义的多模态信息中的潜在变量。这些潜在变量能够通过高分辨率聚类来揭示原来报道中未发现的细胞异质性。通过模型的生成性,scMM为用户提供与潜在维度相关的多模态“调控程序”,从而帮助解释结果。最后,scMM对单细胞数据跨模态生成的探索表明,它优于最先进的预测工具,并有助于更准确地集成来自不同模态的单细胞数据。

2

结果

scMM模型

scMM将多模态单细胞数据作为输入。为细胞n中m模态的特征向量,用概率分布对其进行建模以捕捉每个模态的数据分布特征。对于转录组和表面蛋白数据,选择负二项(NB)分布来解释过度分散的非负计数。此外,染色质可及性数据是非负计数数据;然而,由于信号差、覆盖范围有限和染色质封闭,使得其表现出极端稀疏性。因此,为染色质可及性数据选择零膨胀负二项分布(ZINB)。

scMM的概念图如图1所示,用于双组学分析的scMM模型由四个神经网络组成,其中每个模态中都有一个编码器-解码器对,z是潜在变量的低维向量集。编码器用于推断变分后验,解码器计算NB或ZINB分布的参数。scMM使用MoE来分解联合变分后验,以此获得编码两种模态信息的多模态潜在变量。

通过确定每种模态中哪些特征与潜在维度相关联,这对模型输出的可解释性是有益的。与线性模型相比,深度生成模型的缺点之一是难以解释潜在变量。作者通过使用VAE的生成特性克服了这一限制(图1B)。

scMM的一个独特学习过程是用训练编码器来推断潜在变量,这些潜在变量不仅可以为自己的模态重建概率分布,还可以为其他模态重建概率分布。因此,经过训练的scMM模型可以在两个方向上从单峰单细胞数据中生成与缺失模态相关联的数据,从而实现跨模态生成(图1C)。与传统的预测方法不同,scMM的跨模态生成可以在两个方向上执行。

图1 scMM单细胞多模态数据分析概念图

scMM从单细胞转录组和表面蛋白的多模态数据中提取具有生物学意义的潜在变量

为了验证scMM在多模态单细胞数据联合分析中的性能,作者将提出的方法应用于最近发布的来自接种疫苗患者的外周血单核细胞(PBMC)的CITE-seq数据集。对其随机选择80%的细胞作为训练数据,其余20%用作测试数据。训练模型后,将所有细胞映射到潜在空间中,并使用PhenoGraph对潜在变量进行聚类。用UMAP对每种模态的潜在变量和多模态潜在变量进行可视化(图2A-2C)。为了消除过度拟合的可能性,作者将训练和测试数据集嵌入到共同的潜在空间中。通过PhenoGraph聚类发现了54个细胞群可以与已知细胞群匹配(图2C)。

作者将模型在降维方面的性能与totalVI进行了比较,totalVI也是一种基于VAE的方法,可以直接分析多模态数据。通过PhenoGraph聚类计算模块化分数可以表明细胞在潜在空间中的分组情况如何,实验发现在两个模型中检测到的聚类数量是相似的(图3)。为了比较scMM和totalVI推断的潜在变量在原始转录组和表面蛋白空间中保存结构的程度,作者计算了Jaccard指数(JI)。JI值越高,表明原始空间中的邻域在潜在空间中保存得越好。结果表明,尽管转录组模态的表现相似,但在表面蛋白模态上, scMM中的邻域结构比totalVI保存得更好(图4)。总之,实验表明,scMM的降维性能与totalVI相当。但scMM使用了一种支持潜在维度解释的方法,并且能够跨模态生成缺失模态,而这两种方法在totalVI中都是不可用的。

图2 PBMC CITE-seq数据集的scMM分析

图3 scMM和totalVI推断的潜在变量的UMAP投影

图4使用转录组和表面蛋白最近邻计算的平均JI

scMM通过提供与潜在维度相关的多模态特征来支持结果解释

scMM在每个维度上使用具有不同比例值的拉普拉斯先验,通过学习轴对齐表示来分离信息。潜在变量的可视化显示了与典型基因和表面蛋白标记相似的模态(图2D)。这可能表示与某些细胞类型信息相关的轴对齐编码。总的来说,这些结果验证了scMM学习的可解释潜在表征的有效性。

scMM的跨模态生成可根据转录组数据准确预测表面蛋白测量值

经过训练的scMM模型可以通过跨模态生成,在转录组观察的基础上进行表面蛋白测量。利用测试数据,根据原始表面蛋白计数绘制NB分布的平均参数估计值,其不仅在转录组到转录组之间,而且在转录组到蛋白质的跨模态估计中都显示出高度相关性。通过这些NB分布,对每个细胞的表面蛋白测量值进行取样,并为54个簇生成热图(图2E)。由于转录组数据的热图与原始数据非常相似,证实了scMM中跨模态生成数据的性能。scMM的这一特性可用于预测单峰单细胞数据集的表面蛋白测量值。为了比较预测数据与真实数据,作者选择了骨髓单核细胞(BMNC)CITE-seq数据。使用PBMC训练数据对scMM进行训练,从BMNC数据的转录组测量值中获得潜在变量,并使用UMAP进行可视化(图5A)。BMNC数据被成功地嵌入到从PBMC训练数据中学习到的潜在空间中。

随后,通过从表面蛋白的NB分布中取样来进行跨模态数据生成。在BMNC数据集中分析的25种表面蛋白中,24种与PBMC数据集相同。对于PhenoGraph发现的19个聚类,使用热图显示相同表面蛋白的表达水平。结果表明,scMM生成的表面蛋白数据很好地捕捉了原始数据的特征(图5C)。作者将scMM的预测准确性与Seurat进行了对比,每个细胞的误差平方和表明,在预测表面蛋白方面,scMM比Seurat更准确(图5B)。

图5 BMNC数据集表面蛋白质测量值的预测

单细胞转录组和染色质可及性多模态数据的scMM分析

作者将scMM应用于由SHARE-seq获得的小鼠皮肤单细胞转录组和染色质可及性多模态数据。转录组和染色质可及性的潜在变量以及多模态潜在变量通过UMAP可视化(图6A-6C)。多模态潜在变量上的PhenoGraph聚类显示出与表皮和毛囊中存在的已知细胞类型相对应的聚类。每个维度潜在变量的可视化揭示了具有某些基因表达水平的相似模态,从而表示与细胞类型信息相关的轴对齐编码(图6D)。通过在独立遍历潜在维度的同时顺序生成伪细胞,作者发现了与潜在维度9密切相关的基因和峰值(图6E)。与细胞注释一致的是,在正相关特征中发现了与细胞周期密切相关的基因。作者还在检测到的峰值中寻找基序富集以揭示潜在维度相关的基序。

图6 小鼠皮肤SHARE-seq数据集的scMM分析

转录组测量值的跨模态生成有助于精确的数据集成

由于表面蛋白的高维性和稀疏性,从转录组预测染色质可及性是一项比预测表面蛋白更困难的任务。具体来说,只有少数方法可用于预测染色质可及性。通过染色质可及性预测转录组的传统方法是通过对基因转录起始位点(TSS)上游 2kb范围内的峰值计数求和,从而返回“基因活性矩阵(GAM)”。虽然GAM在某种程度上与细胞的转录组状态相对应,但由于它忽略了增强子和TSS之间的远距离相互作用,因此不可避免的会导致信息的丢失。

考虑到目前从一个信息集到另一个信息集预测转录组和染色质可及性的局限性,作者通过scMM在这些模态中实现跨模态生成。NB参数的平均估计值与原始转录组计数的曲线图显示,转录组到转录组和可及性到转录组重建具有高度相关性(图7A)。图7B显示了1126个具有统计意义的差异表达基因上25个簇的热图。跨模态生成的热图显示出与原始转录组数据相似的模态,这表明生成的数据很好地捕捉了原始簇的特征。

集成来自不同模态的单细胞数据是现代计算生物学最重要的目标之一。最近开发的单细胞集成工具,需要通过创建GAM将染色质可及性转化为转录组来进行集成。最近使用单细胞多模态数据的研究表明,这种方法通常无法正确识别相应的细胞。使用跨模态生成的转录组数据的scMM表现出更准确的集成,因为它在预测时考虑了所有染色质位点。首先,通过scMM的跨模态生成或GAM的构建获得测试数据中每个细胞的预测转录组测量结果。然后,将预测的和原始的单细胞转录组数据集成到LIGER和Seurat共享的空间中。通过计算批次混合熵来对集成进行定量评估,经实验证明,scMM生成的细胞集成数据能够更好地嵌入原始细胞中(图7C-7D)。总的来说, scMM在生成精确反映染色质可及性的转录组数据方面具有很好的潜力,并且与现有方法结合使用时,对单细胞集成分析有显著贡献。

图7 从染色质可及性到转录组的跨模态生成导致更好的数据集成

scMM实现染色质可及性预测

与转录组测量值相比,计数随着每个细胞中mRNA丰度的增加而增加,理论上染色质可及性只有两种状态:开放或闭合。因此,较大的峰值计数仅反映与Tn5结合有利的序列,或者它们只是随机事件。同时,预测模型需要区分零值和非零值,而不是预测绝对计数。图8A显示了测试数据集相对于原始峰值计数的ZINB分布的估计平均参数。通常,估计的平均参数低于原始峰值计数,这反映了开放染色质的低检测率。通过对估计的ZINB分布进行抽样,并对测试数据集的染色质可及性测量值进行单峰和跨峰生成。图8B热图峰值显示了跨模态生成和原始数据的高度相似性。此外,通过跨模态生成,可以准确地恢复原始簇中的基序分数(图8C)。为了研究跨模态生成的染色质可及性数据,作者分析了Lef1和Krt1基因区域的覆盖率峰值,它们分别是生长期毛囊角质细胞和永久表皮角质细胞的重要标记。图中显示了在角质细胞亚群中特异性检测到的scMM重建峰值生成的染色质可及性数据,这进一步证实了scMM的跨模态数据生成性能(图8D)。值得注意的是,通过从预测的ZINB分布中采样的跨模态生成允许制定高维染色质可及性数据的稀疏表示,与密集表示相比,这些表示具有内存效率。

图8 scMM从转录组数据中准确预测染色质可及性

3

总结

快速发展的单细胞多模态分析领域要求开发对数据联合分析的方法,scMM旨在满足这一需求。这项研究表明,scMM可从多模态单细胞数据中提取低维潜在变量,这对于下游分析非常有用。

scMM能够识别现有方法难以检测的细胞群。富有表现力的深层生成模型捕捉到了Seurat中使用的线性模型无法捕捉到的复杂非线性结构。与totalVI相比,scMM的性能有所改善,这可能是因为加入了MoE。scMM可独立的估计每个模态的后验分布,然后通过MoE将其平均混合。作者还利用scMM的数据生成特性来克服解释深度生成模型的困难。通过探索每个潜在维度相关的多模态调控程序,有望为scMM分析中发现的聚类提供更深入的见解。

实验结果表明,用scMM进行跨模态生成可以准确预测不同模态的测量结果,这些预测可用于集成多个单峰数据集。scMM针对最先进的预测工具和传统集成方法进行基准测试,证明了scMM在这些任务上的优越性。scMM的这些特性将有助于其有效的利用积累的单峰单细胞数据库,这些数据库具有注释和良好的特征。

scMM的优势之一是其可扩展性,它可以通过构建具有不同分布的模型来应用于任何模态。除了本研究中考虑的模态外,将其应用于其他多模态数据是未来研究的方向。将scMM扩展到几个多模态单细胞数据可能会辨认出关于转录组、表观基因组和蛋白质组的新型细胞状态或功能。将scMM应用于具有空间信息的单细胞数据中将是一个令人兴奋的研究问题,因为与其他模态相比,空间数据中的坐标只有在与其他细胞的位置关系中才有意义。作者提出的模型将从可解释的潜在特征提取和跨模态生成的范围,为多模态单细胞数据的深度生成模型奠定基础。

参考资料

Minoura, K., Abe,K., Nam,H. et al. A mixture-of-experts deep generative model for integrated analysis of single-cell multiomics data.Cell Reports Methods(2021).

https://doi.org/10.1016/j.crmeth.2021.100071

数据

https://satijalab.org/seurat/

代码

https://github.com/kodaim1115/scMM

0 人点赞