作者 | 戴迟迟 编辑 | 戴迟迟 校对 | 李仲深
今天给大家介绍宾夕法尼亚大学Nancy R. Zhang教授等人发表在Nature Methods上的一篇文章 “SAVER: gene expression recovery for single-cell RNA sequencing”。大规模并行单细胞RNA测序 (scRNA-seq) 的快速发展为生物样本的高分辨率单细胞分析铺平了道路。在大多数scRNA-seq研究中,每个细胞中只有一小部分的转录物被测序。在高度并行化的实验中,为每个细胞分配的读数很小,效率 (即被测序的转录本的比例) 会很低。这导致对低表达和中表达基因的测量是不可靠的,且引起了数据极为稀疏并阻碍了下游分析的问题。为了解决这一挑战,本文介绍了SAVER (通过表达恢复进行单细胞分析),一种针对scRNA-seq的表达恢复方法,它借用了跨基因和细胞的信息来插补零值并改善所有基因的表达。
一、研究背景
分析scRNA-seq数据的主要挑战是每个细胞的效率低下,导致大量基因 (通常超过90%) 的计数为零或很小的值。尽管观察到的许多零计数都反映了真正的零表达,但是相当大的一部分是由于诸如捕获和测序效率之类的技术因素造成的虚假的零表达。
本文开发了SAVER,该方法利用基因与基因的关系来恢复每个细胞中每个基因的真实表达水平,消除了技术差异,同时保留了跨细胞的生物学变异。SAVER使用质量控制后的具有UMI计数的scRNA-seq数据集作为输入。SAVER假定每个细胞中每个基因的计数遵循Poisson-Gamma混合分布,也称为负二项式模型。代替指定Gamma先验,使用其他基因的表达作为预测因子,通过具有Poisson-LASSO回归的经验贝叶斯方法估算先验参数。一旦估计了先验参数,SAVER将输出真实表达的后验分布,从而量化估计的不确定性,并且将后验均值用作SAVER恢复的表达值 (图1a)。
二、模型与方法
SAVER是一种优化全部基因表达的方法,它使用跨基因和细胞的信息插补零值,并提高所有基因的表达值 (图1a)。它使用多基因预测模型恢复基因表达,他假设:
其中
是特定于细胞的大小因子,而
是
的真实表达式。SAVER假设
,其中
和
分别是最大似然之后的形状估计和速率估计参数。
是
的估计值 (也可以称作插补之后的值)。最后,插补值公式为:
其中,
是基于相同细胞中信息基因观测到的表达值计算的一个预测因子。
图1. SAVER流程与基于Drop-seq数据的SAVER的RNA FISH验证
三、实验结果
3.1 基于Drop-seq数据的SAVER的RNA FISH验证
由于FISH和scRNA-seq分析使用了不同的细胞,因此只能通过分布比较这两种方法得出的估计值。基因表达分布的准确恢复对于鉴定稀有细胞类型,鉴定高度可变的基因和研究转录爆发非常重要。本实验将SAVER应用于Drop-seq数据,并针对15个重叠基因的FISH,Drop-seq和SAVER结果计算了Gini系数 (是一种基因表达变异性的量度)。
对于所有基因,SAVER有效地恢复了FISH的Gini系数,而Drop-seq严重高估了该系数 (图1b)。此外,比较每个基因在细胞中的表达分布,观察到与Drop-seq相比,SAVER恢复了与FISH分布更匹配的表达分布 (图1c)。从MAGIC和scImpute获得的Gini估计值和恢复的分布与FISH也不匹配。
SAVER不仅能够恢复基因表达分布和分布水平特征,还能够恢复在FISH中观察到但在Drop-seq中受到抑制的真正的生物学基因与基因之间的相关性。例如,SAVER恢复了基因BABAM1和LMNA之间的强相关性,这在Drop-seq数据中丢失了 (图1d)。此外,作者还在补充材料中公布了MAGIC与scImpute的结果。
3.2 SAVER准确恢复每个基因在单个细胞中的真实表达水平
接下来,实验评估了SAVER是否可以准确恢复每个基因在单个细胞中的真实表达水平。鉴于很难确定每个细胞中mRNA的实际数量,本实验对四个数据集进行了下采样实验,以生成真实的基准数据集。对于每个数据集,首先选择具有高表达的基因和细胞子集作为参考数据集,将这些表达水平视为真实表达。然后,以低效率模拟捕获和测序过程,同时在文库大小中引入细胞间差异。 在每个观察数据集上运行SAVER,MAGIC和scImpute,以及其他用于缺失数据插补的常规算法。
为了评估每种方法的性能,实验计算了参考数据和观察数据之间以及参考数据和恢复数据集之间的细胞间Pearson基因方向相关性 (
) 和基因间的Pearson细胞方向相关性 (
)。SAVER改善了所有数据集在基因和细胞方面的相关性,而MAGIC,scImpute和常规缺失数据插补算法通常表现得比使用观察数据更差 (图2a)。接下来,实验评估了基因网络重建和细胞类型鉴定所需的基因对基因和细胞对细胞相关矩阵的恢复。为了进行比较,计算了参考矩阵与观察/恢复矩阵之间的相关矩阵距离 (CMD)。SAVER降低了所有数据集的基因到基因和细胞到细胞的CMD,MAGIC和scImpute的表现与观察到的数据相似,并且传统的缺失数据插补算法的表现要比观察到的数据差 (图2b)。
为了研究SAVER对下游分析的影响,实验对下采样数据进行了差异表达和细胞聚类分析。在先前的研究中,鉴定了两个亚类的细胞,即351个CAPyr1和389个CA1Pyr2细胞。使用几种差异表达方法对这两个子类进行了差异表达分析。下采样后,检测到的差异表达基因的数量比参考数据要少得多,但SAVER在下采样数据集中检测到了最多的基因,同时保持了准确的错误发现率 (FDR) 控制 (图2c)。
3.3 SAVER提高细胞聚类性能
接下来,使用Seurat对参考、观察和恢复的数据集进行了细胞聚类。将参考数据集的细胞类型簇视为真实情况,并通过Jaccard索引和t分布随机邻居嵌入 (t-SNE) 可视化评估了观察的和恢复的数据集的聚类准确性。SAVER的Jaccard指数高于所有数据集,而MAGIC和scImpute的Jaccard指数始终较低 (图2d)。即使使用先前发布的数据集获得的SAVER的Jaccard指数仅比观察的数据集略高,但t-SNE图显示,细胞的SAVER聚类比观察的数据更准确地表示了参考数据分布。SAVER还可以在不同数量的主成分上产生更稳定的结果。
最后,使用SAVER分析了小鼠视觉皮层数据集,其中通过广泛分析将47,209个细胞分为主要细胞类型和亚型。将SAVER应用于7,387个细胞的随机子集,并对观察的与SAVER恢复的细胞数据进行了t-SNE可视化 (图2e)。根据先前研究的标记对单个亚型进行了着色。在原始计数的t-SNE图中,亚型没有很好地分离,并且几乎无法区分。SAVER清晰地区分各个亚型。在使用SAVER的一般经验中,此示例很常见:它不会影响分离良好的细胞类型,但是会识别原始数据中分离不足的细胞类型和状态。
图2. 基于下游分析的SAVER验证
四、总结
本文表明,SAVER能够准确地恢复群体水平的表达分布和细胞水平的基因表达值,这对于有效的下游分析都是必需的。补充说明中的其他深入探讨显示了SAVER的性能如何取决于诸如测序深度,细胞数量和细胞组成等因素。与使用原始计数的分析相比,在几乎所有情况下使用SAVER插补的分析都得到了改进,即使在最坏的情况下,SAVER也不会导致更差的结果。SAVER的强大性能是其对基因水平分散参数的自适应估计以及基于交叉验证的模型选择的结果,这些模型可防止不必要的模型复杂性。通过降低噪音并扩大真实的生物学关系,SAVER改善了用于下游分析的信号。此外,作者还提供了许多其他的数据放置在补充材料中,感兴趣的读者可以下载原文来进行阅读。
代码
https://github.com/mohuangx/SAVER
参考文献
Mo H , Wang J , Torre E , et al. SAVER: gene expression recovery for single-cell RNA sequencing[J]. Nature Methods, 2017.