导语
GUIDE ╲
自从2009 年首篇关于scRNA-seq的文章发表以来,这项技术正在被广泛的采用。随着测序平台商业化的迅速发展和相关生物信息学方法的不断成熟,带来了很多生物医学领域新的发现。上期我们简单的介绍了scRNA-seq的背景和数据的复杂性,这一期我们将和大家一起深入了解一些技术细节。只有充分了解了数据复杂性的缘由,我们才能够更好的理解分析流程并且灵活的运用分析方法。
前期回顾:跟着小鱼头学单细胞测序-scRNA的测序基础
五花八门的protocol,你pick哪一个?
虽然scRNA-seq能被用来回答多个方面的生物学问题(例如细胞群体异质性, 识别罕见细胞亚群, 发育谱系等), 但需要注意我们所得到的结果可能会因为采用的技术平台不同而发生变化。根据不同的文库制备方法,主要有两种RNA序列(same as reads or tags)的获取方式:3’-end sequencing(应用于10X Genomics, CEL-seq2, Drop-seq, inDrops)和 Full-length sequencing(应用于Smart-seq),它们各有所长并适用于不同情况:
3’-end sequencing:
o 使用唯一分子标识(umi),能更准确的区分biological duplicates和amplification duplicates。
o 测序的细胞数量更大(高通量),通常细胞数量需要大于10k。
o 单位细胞的测序成本低。
· Full-length sequencing:
o 适合可变剪切差异表达(isoform-level differences)和等位基因差异表达(allele-specific differences)的分析。
o 通常细胞数量少,测序深度高。
Figure 1 | Overview of scRNA-seq technologies; from Satija et al.,[1].
Ziegenhain et al. [2] 研究表明,常用的protocols对表达量的检测准确度都很高,主要区别在灵敏度(the lowest number of transcripts that can be reproducibly detected), 灵敏度高的protocols能覆盖到更多的低表达基因。研究人员应该根据具体的需要来选择:譬如想最大程度的获取转录组信息的话,具有高灵敏度的SMART-seq2是不错的选择;MARS-seq更适合细胞数较少的情况;在其他的一些应用中,例如识别细胞类型,则细胞数目的要求更高,高通量是关键,Drop-seq就比较有优势, 但同时trade-off就是灵敏度的降低。
Taken from Haque et al., [3].
所有protocols都会面对的一个主要问题是实验产生的technical variation。有些采用“spike-in”来判断技术引入的差异程度,并且能用来矫正样本间的批次效应,找出真正具有高生物意义差异的基因。但是它操作起来比较复杂,需要找准spike-in在reads中的最佳比例;混入了spike-in的样本对degradation比较敏感,容易在暂时分开的样本中引入批次差异; 并且研究表明spike-in的捕获率比内源性转录本要低,这就容易对technical variability的检测产生误差。
除了使用spike-in,唯一分子标识(unique molecular identifiers ,UMI)则是另一种普遍的选择。它可以有效的对每个细胞中的mRNA分子贴上一个唯一的识别码,从理论上来说,可以用于估算绝对分子量(absolute molecule counts),不过在高表达水平下, UMI可能会达到饱和,影响估算值的准确度。尽管如此,UMI是能够大大的降低在扩增过程中产生的偏差,提高检测的精确度。总的来说,这两种方法比较常见但各自被用于不同的平台。 例如spike-in与Drop-let based的方法不兼容,而UMI则常用于3’-end sequencing(such as CEL-seq2, Drop-seq and MARS-seq)。
灵魂发问:How many cells must I sequence and to what depth?
测序需要的细胞数跟样本的异质性相关,即样本复杂度越高,需要的细胞数木越多。例如高度多样化的T淋巴细胞群, 能表达不同的antigen receptors,更多的细胞能提高检测不同亚群的检验效能(statistical power)。当然很多时候我们无法预估检测样本的异质性,不过如果有其他类型的单细胞数据,例如flow- or mass-cytometric data存在的话,可以参考做一个功效分析(power calculation)和样本量估计分析(group size estimation)。
根据研究目的不同,测序深度的选择也不同。对于探索组织中存在哪些细胞亚群或者识别罕见细胞类型的研究,提高检测细胞数并保持相对较低的测序深度是比较实用且实惠的选择。一般来说,测序深度保持在10k-50k per cell就能做到unbiased 细胞分类,随着测序细胞数目的增加,检测到概率<1%的亚群的power越大 [3]。
测序深度低相对应的风险就是无法全面的捕获mRNA分子,造成一些重要基因的表达值缺失(dropout),尤其是低表达基因。因此当研究目的是针对特定细胞群的转录组分析时,增加测序深度就很必要了。10x建议至少20k read pairs per cell。有研究表明[3],当前普遍的protocol在测序深度达到1m 的时候单细胞文库就接近饱和(saturation)了,而且绝大多数基因在深度达到~500k reads的时候就都能被检测到。来自Rich-Griffin et al., [4] 的tips:如果研究目的是针对表达谱,特别是低表达量基因,测序深度需要达到高于90%的饱和度;如果是关于细胞亚群分类,测序饱和度的需求可以适当降低。
核心分析流程an overview of scRNA-seq workflow
在对测序仪生成的对原始数据进行处理时,具体的步骤可能会根据因存在的文库构建方法和具体的研究的问题而略有差异,但其核心的工作流程还是大致类似的。常规的分析流主要包括以下几个步骤:
· 获取原始计数矩阵(raw count matrix):包括有reads质量控制,基因组比对和转录组定量。
· 对原始计数矩阵的质量控制(QC of raw count matrix):筛除低质量的细胞
· 数据标准化(normalization)和数据矫正(如果存在批次差异的话)。
· 特征选择(feature selection), 降维(dimensional reduction)以及可视化(visualization)。
· 更多的下游分析:包括细胞聚类(clustering)和细胞类型注释(cluster annotation),寻找标记基因(marker identification), 基因差异表达分析等。
Figure 1 | Schematic of a typical single‐cell RNA ‐seq analysis workflow; From Luecken et al.,[5]
小编总结
目前来说3’-end sequencing的方法更流行,但是相关的数据出分析上则更加复杂一点。
在我们之后相关的文章中,会着重于来自Droplet-based 方法的数据,给大家带来具体的例子进行分析,并对核心的分析步骤进行详细的展开和讨论,请大家持续关注哦!
参考文献:
[1] Papalexi, E., Satija, R. Single-cell RNA sequencing to explore immune cell heterogeneity. Nat Rev Immunol 18, 35–45 (2018).
[2] Ziegenhain C, Vieth B, Parekh S, et al. Comparative Analysis of Single-Cell RNA Sequencing Methods. Mol Cell. 2017;65(4):631-643.e4. doi:10.1016/j.molcel.2017.01.023
[3] Haque, A., Engel, J., Teichmann, S.A. et al. A practical guide to single-cell RNA-sequencing for biomedical research and clinical applications. Genome Med 9, 75 (2017).
[4] Rich-Griffin C, Stechemesser A, Finch J, Lucas E, Ott S, Schäfer P. Single-Cell Transcriptomics: A High-Resolution Avenue for Plant Functional Genomics. Trends Plant Sci. 2020;25(2):186-197. doi:10.1016/j.tplants.2019.10.008
[5] Luecken MD, Theis FJ. Current best practices in single-cell RNA-seq analysis: a tutorial. Mol Syst Biol. 2019;15(6):e8746. Published 2019 Jun 19. doi:10.15252/msb.20188746