最近刷到了一个预印本的文章:《The curses of performing differential expression analysis using single-cell data》,是来自于美国的密西根大学和芝加哥大学的研究论文。他们提到了单细胞数据分析的“诅咒”(curses)。单细胞转录组差异分析之所以困难,主要是由于以下8个方面的原因:
- 标准化(Normalization)问题:
- 单细胞数据需要经过标准化来校正PCR扩增偏倚、批次效应以及数据分布的偏差。然而,目前还没有建立一个统一的金标准来指导在不同情况下应使用哪种标准化方法。
- 传统的基于计数的标准化方法(如CPM)可能会抹去由UMIs(Unique Molecular Identifiers)提供的重要数据,并且不考虑基因间对细胞资源的竞争。
- 零值问题(Excessive Zeros):
- 单细胞数据中存在大量的零值,这些零值可能代表基因未表达、表达水平低未被检测到,或是技术问题导致的未捕获。
- 许多单细胞差异表达研究在预处理步骤中尝试去除零值膨胀,但这可能会错误地将生物学上有意义的零值(例如由于表达量低或不表达)视为技术假象。
- 供体效应(Donor Effects):
- 在单细胞研究中,来自不同供体的样本通常在同一批次中处理,导致供体效应与批次效应混杂在一起。
- 即使进行了批次校正,供体效应仍然可能存在,如果不考虑这些效应,可能会导致假阳性的发现。
- 累积偏差(Cumulative Biases):
- 单细胞数据分析通常遵循一个层次化的顺序工作流程,从批次校正到标准化、数据插补和特征选择,这些步骤可能会将前一步的偏差带入到下一步,从而累积起来,最终减弱检测差异表达基因的能力。
- 模型选择和假设:
- 选择合适的统计模型来处理单细胞数据也是一项挑战,因为数据的分布可能与模型的假设不完全一致,例如,负二项分布的假设可能不适用于所有情况。
- 数据稀疏性:
- 单细胞数据通常非常稀疏,每个样本中表达的基因数量较少,这增加了分析的复杂性。
- 技术变异和批次效应:
- 单细胞测序技术可能会引入技术变异,不同批次的样本可能会有不同的技术变异,这需要在分析中仔细处理。
- 生物学变异:
- 即使是来自同一类型的细胞,不同个体或不同状态下的细胞也可能表现出显著的生物学变异。
- 计算复杂性:
- 处理和分析单细胞数据需要复杂的计算方法和较大的计算资源。
文献中提出的新范式(new paradigm)是直接在原始UMI计数上应用广义线性混合模型(GLMM),这种方法可以在执行批次校正、标准化、插补或特征选择之前,就对原始数据进行差异表达分析。这种方法保留了样本特定的结构和生物信号,并可以调整任何潜在的混杂因素,如批次、年龄、性别或种族,通过将它们作为固定效应的协变量纳入模型中。这种方法可能有助于克服上述一些挑战,提高单细胞转录组差异分析的准确性和可靠性。
基于广义线性混合模型(GLMM)做单细胞转录组差异分析
在这篇论文中,作者提出了使用广义线性混合模型(Generalized Linear Mixed Model, GLMM)来处理单细胞转录组数据的差异表达分析。GLMM 是一种灵活的统计方法,可以同时处理固定效应和随机效应。以下是 GLMM 在单细胞数据分析中的一些优缺点:
优点:
- 处理多层次数据结构:GLMM 可以很好地处理单细胞数据中的多层次结构,例如,考虑细胞类型、供体(donor)和实验批次等不同层次的效应。
- 调整混杂因素:通过将批次、年龄、性别或种族等潜在的混杂因素作为协变量纳入模型,GLMM 可以有效地调整这些因素对结果的影响。
- 利用原始UMI计数:GLMM 直接在原始的UMI(Unique Molecular Identifiers)计数上进行分析,保留了数据的绝对表达水平,这有助于更准确地估计基因表达的差异。
- 提高统计检验的准确性:GLMM 可以提供更为准确的统计检验,因为它考虑了数据的随机效应,从而减少了假阳性和假阴性的风险。
- 灵活性:GLMM 允许研究者根据数据的特定情况选择合适的概率分布,例如泊松分布或二项分布,以适应不同类型的计数数据。
- 更好的敏感性:GLMM 显示出比现有方法更高的敏感性,能够检测到更多的差异表达基因。
- 稳健性:GLMM 对模型的误设定具有较好的稳健性,即使数据的实际分布与模型假设不完全一致,也能提供可靠的结果。
缺点:
- 计算复杂性:GLMM 的计算通常比简单的统计方法更为复杂和资源密集,可能需要较长的计算时间和较高的计算能力。
- 模型设定:选择合适的随机效应结构可能具有挑战性,不当的模型设定可能导致错误的结论。
- 参数估计:在某些情况下,GLMM 的参数估计可能不够精确,特别是当数据中存在稀有事件或极端值时。
- 过度依赖先验假设:GLMM 的结果可能过度依赖于先验的假设,如数据分布的假设,如果这些假设不成立,可能会影响结果的解释。
- 模型选择困难:在面对多种可能的模型时,选择合适的模型可能具有挑战性,需要专业知识和经验。
- 对数据质量要求较高:为了获得准确的结果,GLMM 分析需要高质量的数据,包括严格的数据清洗和预处理步骤。
- 结果解释:GLMM 提供了丰富的统计输出,但结果的解释可能比简单的方法更为复杂,需要深入理解模型和统计概念。
总的来说,GLMM 为单细胞数据的差异表达分析提供了一种强大的工具,尽管存在一些挑战和局限性,但其优点使其成为解决现有方法不足的有力候选。
案例和对比
在这篇论文中,作者为了证明其提出的广义线性混合模型(GLMM)算法的优势,与几种现有的单细胞差异表达分析方法进行了对比。以下是作者对比的方法以及结果概述:
- Poisson-glmm 和 Binomial-glmm:这是作者提出的两种新方法,它们直接在原始UMI(Unique Molecular Identifiers)计数上执行差异表达分析,使用GLMM框架来调整批次效应和样本内变异。
- DESeq2 和 edgeR:这两种是传统的伪批量(pseudo-bulk)方法,它们将来自同一供体的细胞合并,并使用与批量RNA-seq数据相同的工具进行差异表达分析。
- MAST:这是一种为单细胞数据设计的方法,采用零膨胀负二项模型,并使用对数转换的CPM(counts per million)计数进行分析。
- Wilcox:这是Seurat包中使用的非参数秩和检验方法,它使用集成的标准化计数数据。
- Muscat 中的 MMvst 和 MMpoisson:这些是Muscat包中实现的混合模型,分别在方差稳定转换数据和原始UMI计数上拟合线性混合模型。
作者通过两个案例研究(case studies)来评估这些方法的性能:
- 案例研究1:使用了来自绝经后输卵管的10X scRNA-seq数据集,包含来自5个供体的57,182个细胞,覆盖29,382个基因。作者比较了不同免疫细胞类型,并在不同的场景下评估了各种方法的性能,包括具有显著库大小差异的同质组、库大小相似的同质组和异质组。
- 案例研究2:使用了来自系统性红斑狼疮(SLE)患者的外周血单核细胞的10X珠滴式scRNA-seq数据集,包含29,065个细胞和7,661个基因。数据集涉及8种不同的细胞类型,每个细胞类型分为未刺激对照组和IFN-β刺激组。
对比结果显示:
- Poisson-glmm 和 Binomial-glmm:在多个场景中显示出较高的灵敏度和稳健性,能够识别出更多的差异表达基因(DEGs),并且能够更好地捕捉到组间表达差异。
- DESeq2 和 edgeR:作为伪批量方法,它们在某些情况下可能过于保守,导致错过一些真实的DEGs。
- MAST:在某些情况下可能无法有效表征零值,导致潜在的DEGs被模型掩盖。
- Wilcox:由于基于秩和的检验,可能在过滤步骤中排除了大量基因,导致检测能力受限。
- Muscat:尽管提供了考虑供体和组别效应的混合模型,但在某些情况下可能无法提供与作者提出的GLMM方法相当的性能。
作者还强调了使用UMI计数进行DE分析的重要性,并指出现有的一些实践(例如,使用火山图作为诊断DE工具)可能因依赖相对RNA丰度而变得过时。作者提出的新范式(直接在原始UMI计数上应用GLMM)可能显著改进当前实践,通过利用绝对RNA表达水平来提高差异表达分析的准确性。
这些结果表明,作者提出的GLMM方法在处理单细胞数据的差异表达分析方面具有潜在的优势,尤其是在考虑批次效应和样本内变异时。然而,作者也指出,要实现这一新范式,需要对现有工具进行调整,并教育和培训研究人员使用这些新方法。