导语
GUIDE ╲
在单细胞RNA表达数据中,通常我们会观察到大量的零值,也称为drop-out现象。常规的单细胞分析中,会在预处理中通过归一化或插补进行处理。这里小编给大家介绍一篇关于处理drop-out的文章,结果展示了drop-out与细胞异质性的相关性,给细胞分类聚类提供了新思路。
背景介绍
在单细胞RNA表达数据中,通常我们会观察到大量的0值,也称为drop-out现象。表达矩阵中的零可能真的是未表达的基因,也可能是由于一些原因(例如测序深度低)未检测到。现有的流程中对dropout有两种常见处理方式,降维(通过特征提取或者特征选择)和插补(imputation,即把零值作为缺失值来考虑,根据概率模型填补)。这里给大家介绍一个关于dropout的研究,作者提出了一种新思路,利用的dropout的比例来解释细胞异质性并将特征选择与迭代聚类相结合。
Droplet-based的单细胞 RNA引入条形码唯一分子标识符 (UMI) 的步骤,起到了消除扩增偏差的目的,进一步提高了数据质量。比较常见的单细胞数据处理流程包括了quality control质控、数据清理cleaning(归一化、imputation、去噪、批次校正等)、特征选择、降维和下游分析,如聚类和谱系分析等。该文章主要关注的是数据清理及之后的步骤。
针对scRNA-seq 数据清理这一步现在有大量工具。常见的算法有基于size factor对测序深度做标准化;使用零膨胀模型(zero inflated model)直接估算读数,以减少drop-out影响;通过拟合参数模型对整个数据集进行降噪,比如Seurat中的sctransform使用负二项式回归的残差。尽管方法多种多样,但有一点是已达成普遍共识,即适合应用于计数进行建模的分布有泊松、负二项式或零膨胀负二项式分布。特征选择的方法争议较小,大多数流程使用某种形式的基因方差来识别高度分散的基因,分散水平可以被解释为生物异质性的信号。最后,在数据清理和特征选择之后,预处理过的数据将被输送到下游分析工具中进行降维、聚类分析、轨迹推断或差异表达分析等。
该文中,作者基于公共的UMI 数据集进行了广泛的分析挑战了大多数现有预处理工具中的假设,即预处理是特征选择和下游分析之前的必要步骤。文中结果提出一个新的观点:聚类或解决细胞异质性应该是 scRNA-seq 分析流程的首要步骤,而不是作为下游分析的一部分。在解决异质性之前对数据集进行归一化或imputation可能会导致下游分析的不利后果,他们通过整合预处理步骤和聚类,为 scRNA-seq 数据分析提供了一个新的视,利用零比例来检测每个基因中不同水平的细胞类型异质性,并表示这对于具有过多零的低 UMI 数据集特别有用,比如10X数据。
主要结果
01
Drop-out比例与细胞异质性相关
文中使用了三个10X的UMI 数据集,分别由同质和异质细胞群构成。对每个数据集他们计算了每个基因零计数的细胞比例,并分别将其与泊松、负二项式和零膨胀负二项式分布下的预期零比例进行比较(如下图)。对于同质细胞群,结果显示大多数基因与泊松假设下的预期曲线很好地对齐。很少有基因可以从使用负二项式模型来解释来自泊松的额外分散中受益,并且通过零膨胀负二项式分布的模拟是不必要的。基于此,他们提出零比例与其他广泛使用的基因方差、变异系数 (CV) 或负二项式分布中的分散参数一样,也能用来有效衡量细胞类型异质性。它提供了简单性和可解释性,特别是对于具有低 UMI 计数和合理数量的零的数据集,因为当没有观察到零时,零通胀是没有意义的。
通过对多个 UMI 数据集的分析表明,大多数基因中的零比例可以通过泊松分布有效建模。而对于混合细胞类型,在Poisson 模型下零比例与预期值有很大差异,这表明零膨胀测试是一种寻找细胞异质性基因的有效方法。相反,混合细胞类型的基因变异并不总是超过单一细胞类型的基因变异。平均而言,同质和异质细胞群的基因方差分布相似。因此,基因变异更像是一种基因特异性特征,而对整个细胞群的特征的信息较少。
02
细胞异质性是0-inflation的主要驱动因素
作者通过PBMC 数据集进一步比较了比较了具有各种功能注释的基因的观察零比例和泊松预期比例之间的差异。绝大多数基因被归类为“蛋白质编码基因”。它们的零比例涵盖了从 0 到 0.7 的广泛范围,相比之下,免疫-相关基因始终为零膨胀。富集分析显示,与免疫相关基因相比,免疫相关基因的零膨胀基因比例显着更高。零通胀排名靠前的注释包括IG C基因、TR C基因和HLA基因。IG C基因是恒定(C)区的免疫球蛋白基因,而TR C基因是恒定区的T细胞受体。这一结果证实了细胞异质性是零通胀的主要驱动因素。免疫基因的更高水平的异质性解释了过去研究的结果:即使在一种细胞类型中,也存在零膨胀基因。
基于以上结果,作者提出了一种新的特征选择策略,该策略使用给定基因的检测到的零比例作为统计量来测试细胞异质性。在假设完全细胞同质性的零假设下,零的比例等于泊松分布下的预期零比例。基于此,作者开发了一种的新的pipeline,该流程仅使用零计数比例,而不使用其他非零计数值的比例,因此不必搜索特定的参数分布来拟合所有非零值,减少了计算量。
小编总结
总体来说,该文章提供了一个单细胞 UMI 数据集的分析的新视角,并强调了细胞类型的异质性必须作为分析的第一步来处理,以便进行更可靠的下游分析。这也给我们验证细胞分类提供了一个新思路。例如,当我们不确定细胞分类结果时,可以考虑通过比较群簇之间的零表达比例来进行区分验证。
References:
Kim, T., Zhou, X. & Chen, M. Demystifying “drop-outs” in single-cell UMI data. Genome Biol 21, 196 (2020). https://doi.org/10.1186/s13059-020-02096-y