单细胞RNA-seq数据分析最佳实践(下)

2020-03-27 13:46:08 浏览数 (1)

分享是一种态度

作者 | 周运来

男,

一个长大了才会遇到的帅哥,

稳健,潇洒,大方,靠谱。

一段生信缘,一棵技能树,

一枚大型测序工厂的螺丝钉,

一个随机森林中提灯觅食的津门旅客。

文章信息

Luecken MD, Theis FJ. Current best practices in single-cell RNA-seq analysis: a tutorial. Mol. Syst. Biol. 2019, 15: e8746.

Downstream analysis

预处理后,我们称之为下游分析的方法被用于提取生物学见解并描述潜在的生物学系统。这些描述是通过拟合数据的可解释模型获得的。这些模型的例子是

  • 具有相似基因表达谱的细胞群代表细胞类型簇;
  • 相似细胞之间基因表达的微小变化表示连续(分化)轨迹;
  • 或具有相关表达谱的基因表明其共同调节作用。

下游分析可分为细胞水平和基因水平的方法,如图 5 所示。细胞水平的分析通常集中于两种结构的描述:簇和轨迹。这些结构又可以在细胞和基因水平上进行分析,从而形成聚类分析和轨迹分析方法。

图 5. 下游分析方法概述。方法分为细胞水平和基因水平分析。细胞水平分析方法再次细分为聚类分析和轨迹分析分支,这也包括基因水平分析方法。所有蓝色背景的方法都是基因水平的方法。

大体上,聚类分析方法试图根据细胞的聚类来解释数据的异质性。相比之下,在轨迹分析中,数据被视为动态过程的快照映射。在这里,我们描述了细胞和基因水平的群集和轨迹分析工具,在详细描述独立于这些细胞结构进行的基因水平分析之前。

Cluster analysis

将细胞聚类通常是任何单细胞分析的第一个中间结果,簇允许我们推断细胞类型。根据细胞基因表达谱的相似性对细胞进行分组,得到细胞簇。通过距离度量来确定表达谱相似性,通常将降维结果作为输入。相似性评分的一个常见示例是欧几里德距离,该距离在 PC 缩减的表达空间上计算。目前主要有两种方法聚类产生细胞簇:聚类算法和社区检测算法(community detection)。

聚类是一种经典的无监督机器学习方法,直接基于距离矩阵。通过最小化簇内距离或在减少的表达空间中找到致密区域,将细胞分配给 clusers。流行的 k-means 聚类算法通过确定簇中心并将细胞分配到最近的簇中心,迭代优化质心位置,将细胞分为 k 个簇(MacQueen,1967)。这种方法需要输入预期的簇数量,通常是未知的,必须进行启发式校准。k-means 应用于单细胞数据的距离指标各不相同。标准欧氏距离的替代方法包括余弦相似性 (Haghverdi et al,2018)、基于相关性的距离度量 (Kim et al,2018) 或 SIMLR 方法,该方法使用高斯核学习每个数据集的距离度量 (Wang et al,2017)。最近的一项比较表明,当使用 k-means或作为高斯核的基础时,基于相关的距离可能优于其他距离指标 (Kim et al,2018)。

社区检测方法是图聚类算法(graph-partitioning algorithms),依赖于单细胞数据的图表示。这个图的表示是使用 K 最近邻方法(KNN 图)。图中将细胞表示为节点,每个细胞与其 K 个最相似的细胞相连,这些细胞通常使用欧氏距离在 PC 缩减的表达空间上获得。根据数据集的大小,K 通常设置在 5 到 100 个最近的邻居之间。所得图表获取了表达数据的基础拓扑结构 (Wolf et al,2019)。表达空间的密集采样区域表示为图的密集连通区域。使用社区检测方法检测这些密集区。社区检测通常比一般的聚类更快,因为只有相邻的细胞对必须被认为属于同一个集群。这种方法大大减少了可能群的搜索空间。

在首创表型法(PhenoGraph method) (Levine et al,2015) 后,单细胞数据集的标准聚类方法已成为多分辨率模块优化(Newman & Girvan,2004;如Louvain算法(Blondel et al, 2008)实现在单细胞KNN图上。已经成为Scanpy和Seurat单细胞分析平台中默认聚类的方法。已有研究表明,它在单细胞RNA- seq数据聚类方面优于其他聚类方法(Duo ' et al, 2018;(Freytag et al, 2018)。

从概念上讲,Louvain 算法将社区检测为一组单元,它们之间的链接比从单元的总链接数预期的要多。优化的模块功能包含一个解析参数,允许用户确定集群分区的规模。通过子集 KNN 图,也可以只对特定的集群进行子集。这样的子聚类可以允许用户识别细胞类型聚类内的细胞状态 (Wagner et al,2016),但也可能导致仅来自数据噪声的模式。

问题和建议: •我们建议在单细胞KNN图上通过Louvain社区检测进行聚类。 •聚类不需要在单个分辨率下执行。 特定的cell群是关注数据集中更详细的子结构的有效方法。

Cluster annotation

在基因水平上,通过寻找每个聚类的基因特征对聚类数据进行分析。这些所谓的标记基因(marker genes)表征了该簇,并被用来用一个有意义的生物学标签来注释它,该标签代表细胞簇内细胞的身份。由于任何聚类算法都会产生数据的分区,所以只有成功注释所代表的生物学才能确定所识别的聚类的有效性。

虽然可以假设在单细胞数据中检测到的簇代表细胞类型,但有几个变异轴决定了细胞同一性 (Wagner et al,2016;Clevers et al,2017)。首先,并不总是清楚什么是细胞类型。例如,虽然 T 细胞可能是某些细胞类型的满意标记,但其他细胞可能在数据集中寻找 T 细胞亚型并区分 CD4 和 CD8 T 细胞 (Wagner et al,2016;Clevers et al,2017)。此外,相同细胞类型的细胞在不同状态下可在单独的簇中检测到。由于上述原因,最好使用术语细胞身份(cell identities)而不是细胞类型(cell types)。在分群和注释群之前,用户必须决定哪一级别的注释细节,从而决定哪一级集群的分辨率。

识别和注释簇依赖于使用描述单个细胞身份预期表达谱的外部信息来源。感谢最近和正在进行的努力,如小鼠大脑图谱 (Zeisel et al,2018) 或人类细胞图谱 (Regev et al, 2017),可用的参考数据库越来越多。这些数据库极大地方便了细胞身份注释。在没有相关参考数据库的情况下,可以通过比较数据来源的标记基因与来自文献的标记基因(见 project github 的案例研究)或直接可视化文献来源的标记基因的表达值(图 6B)来注释细胞身份。应该注意的是,后一种方法将用户限制在对来源于表达研究的细胞类型的经典理解,而不是细胞身份。此外,研究表明,常用的细胞表面标志物定义细胞特性的能力有限 (Tabula Muris Consortium et al,2018)。

图 6. Haber (2017) 小鼠肠上皮数据集的聚类分析结果。(A) 由Louvain聚类发现的带注释的细胞识别簇,在 UMAP 表示中可视化。(B) 细胞识别标记物表达,以鉴定干细胞 (Slc12a2)、肠细胞 (Arg2)、杯状细胞 (Tff3) 和潘氏细胞 (Defa24)。从低表达(灰色)到高表达(红色)可视化校正表达水平。如杯状细胞和潘氏细胞所示,标记基因也可能在其他细胞同一性群体中表达。近端(上)和远端(下)肠上皮区域的细胞-同一性组成热图。相对高细胞密度显示为暗红色。

使用参考数据库信息注释集群有两种方式:使用数据来源的标记基因或使用全基因表达谱。可通过应用两组之间的差异表达 (DE) 检验找到标记基因集:一组中的细胞和数据集中的所有其他细胞(参见差异表达检验)。典型的,我们集中在感兴趣的簇中上调的基因。由于标记基因预期具有较强的差异表达效应,因此通常使用简单的统计检验,如 Wilcoxon 秩和检验或 t 检验,通过基因在这两组之间的表达差异进行排序。将各检验统计量中排名靠前的基因视为标记基因。通过富集试验、Jaccard 指数或其他重叠统计,比较数据集中的标记基因和参考数据集中的标记基因,可对聚类结果进行注释。引用 web 工具,如www.mousebrain.org(Zeisel et al,2018) 或http://dropviz.org/(Saunders et al,2018) 允许用户可视化参考数据集中数据集标记基因的表达,以促进细胞识别注释。

检测标记基因时应注意两个方面。首先,标记基因获得的 P 值基于获得的细胞簇代表实际生物学过程。如果考虑到聚类的不确定性,在统计检验中必须考虑到聚类与标记基因检测的关系。由于聚类和标记基因通常是基于相同的基因表达数据确定的。DE 检验中隐含的无效假设是基因在两组之间具有相同的表达值分布。然而,由于这两组是由标记基因检测中的聚类方法的输出定义的,它们的基因表达谱在设计上存在差异。因此,即使对 splatter 生成的随机数据进行聚类,我们也发现了显著的标记基因 (Zappia et al,2017)(见附录补充文本 S3)。为了在聚类数据中获得一个合适的显著性度量,可以使用置换检验来解释聚类步骤。本试验在附录补充文本 S3 中详细说明。最近的一种差异表达工具也专门解决了这一问题(预印:Zhang et al,2018)。在当前设置下,P 值通常被夸大,这可能导致高估标记基因的数量。然而,基于 P 值的基因排序不受影响。假设聚类有生物学意义,排名靠前的标记基因仍将是最佳标记基因候选。首先,我们可以通过可视化检查预先验证标记基因。我们强调,通过无监督的聚类方法,当通过单个基因的表达确定细胞同一性群集时,可以解释所有其他基因的 P 值。这种单变量的聚类注释方法虽然常见,但不推荐在特殊情况下使用(例如 β 细胞中的胰岛素或红细胞中的血红蛋白)。其次,标记基因在数据集中区分一个簇与其他簇,因此不仅依赖于细胞簇,还依赖于数据集组成。如果数据集组成不能准确代表背景基因表达,检测到的标记基因将偏向于缺失的部分。特别是在计算细胞多样性较低的数据集的标记基因时,必须考虑这方面。

最近,自动集群注释已经可用。通过直接将注释参考簇的基因表达谱与单个细胞进行比较,scmap (Kiselev et al,2018b) 或 Gaett (preprint:Pliner et al,2019) 等工具可以在参考和数据集之间传输注释。因此,这些方法可以同时执行注释和聚类分群,而不需要数据驱动的聚类。由于细胞类型和状态组成在实验条件之间存在差异(Segerstolpe et al,2016;Tanay)基于参考数据的聚类不应取代数据驱动的方法。

聚类、聚类注释、重新或子聚类和重新注释的迭代可能是耗时的。自动注释方法极大地加速了这一过程。然而,自动化和手工方法有其优点和局限性,很难推荐一种方法而不是另一种。速度的提高与灵活性的降低是一致的。如上所述,参考图谱将不包含与研究数据集完全相同的细胞标识。因此,不应放弃标记基因计算进行手动注释。特别是对于包含许多集群的大型数据集,目前的最佳实践是两种方法的组合。为了提高处理速度,自动化的细胞识别注释可以用于粗略标记细胞和识别可能的子簇。随后,应对数据集簇计算标记基因,并与来自参考数据集或文献的已知标记基因集进行比较。对于较小的数据集和缺少参考图谱的数据集,手动注释即可。

问题和建议: •不要使用标记基因p值来验证细胞身份群集,特别是当检测到的标记基因不能帮助注释群落时。p值可能被夸大。 •请注意,同一细胞识别簇的标记基因在不同数据集之间可能完全由于数据集细胞类型和状态组成而不同。 •如果存在相关的参考图集,我们建议使用自动化的集群注释,并结合基于数据的标记基因的手动注释来注释集群。

Compositional analysis

在细胞水平,我们可以根据其组成结构分析聚类数据。成分分析(Compositional analysis )围绕着每个细胞同一簇的细胞比例,这些比例可因疾病反应而改变。例如,已证实沙门氏菌感染可增加小鼠肠上皮中肠细胞的比例 (Haber et al,2017)。研究单细胞数据中的组成变化需要足够的细胞数量来有力地评估细胞-同一簇的比例,以及足够的样本数量来评估细胞-同一簇组成中的预期背景变化。由于适当的数据集最近才出现,因此尚未开发专用工具。在上述小鼠研究中,使用泊松过程模拟细胞实体计数,包括条件作为协变量,检测到的细胞总数作为偏移。此处,可对回归系数进行统计检验,以评估特定细胞鉴别的频率是否发生显著变化。然而,相同数据集中其他细胞身份的检测并不相互独立。如果一个细胞同一性簇的比例发生变化,所有其他细胞同一性簇的比例也必须发生变化。因此,使用该模型无法评估总体组成是否发生显著变化。在没有专用工具的情况下,组成数据的可视化比较可以提供样品之间组成变化的信息(图 6C)。该领域的未来发展将可能借用流式细胞计数法(mass cytometry)(如 Tibshirani 等,2002;Arvaniti)或者微生物组文献 (Gloor et al,2017),其中成分数据分析受到了更多关注。

问题和建议: •考虑样本间细胞同一簇比例变化的统计检验是相互依赖的。

Trajectory analysis

Trajectory inference

细胞多样性不能用诸如群集这样的离散类化系统来充分描述。驱动所观察到的异质性生物学过程是连续的过程(Tanay & Regev, 2017)。因此,为了捕捉细胞身份、分支分化过程或生物功能中渐进的、不同步的变化,我们需要基因表达的动态模型,这类方法称为轨迹推断(TI)。

轨迹推理方法将单细胞数据解释为连续过程的快照。通过寻找穿过细胞空间的路径,使相邻细胞之间的转录变化最小化,重建了这一过程(图 7A 和 B)。细胞的排列顺序径由伪时间(pseudotime)变量描述。虽然该变量与根细胞的转录距离有关,但其通常被解释为发育时间的代表 (Moignard et al,2015;Haghverdi et al,2016;Fischer et al,2018;Griffiths et al,2018)。

图 7. Haber (2017) 小鼠肠上皮数据的轨迹分析和图形提取(graph abstraction )。(A) Slingshot 推断的远端和近端肠细胞分化轨迹。远端谱系显示由红到蓝的伪时间颜色。数据集中的其他cell为灰色。PCA 空间中集群上的弹弓轨迹。细胞簇缩写如下:EPenterocyte progenitors;Imm,耳鼻喉科。未成熟肠上皮细胞;耳鼻喉科。成熟肠细胞;近端;距离。远端。(C) 图 7A 中肠细胞远端轨迹的密度。颜色代表每个假时间箱中的主导集群标签。投射到 UMAP 表示的数据集的抽象图形表示。集群显示为彩色节点。将出现在其他轨迹中的群集标记为比较。TA 表示转运扩增细胞。(E) 使用 GAM R 文库在一般肠细胞轨迹中假时间内的基因表达动态。

自从 Monocle(Trapnell 等,2014)和 Wanderlust(Bendall 等,2014)方法提出以来,可用方法的数量激增。目前可用的 TI 方法在建模路径的复杂性方面有所不同。模型的范围从简单的线性或分叉轨迹,到复杂的图形、树或多分支轨迹。在最近的 TI 方法综合比较中 (Saelens et al,2018),得出的结论是,对于所有类型的轨迹,没有一种方法的性能最佳。相反,TI 方法应根据预期轨迹的复杂性进行选择。比较显示,Slingshot (Street al,2018) 在线性模型、双叉模型和多分支模型的简单轨迹方面优于其他方法。如果预期有更复杂的轨迹,作者推荐 PAGA (Wolf et al,2019)。如果确切的轨迹模型已知,也可以使用更专业的方法来改善性能 (Saelens et al,2018)。一般而言,任何推断的轨迹均应使用替代方法进行确认,以避免方法偏倚。

在典型的工作流中,当有一个内建的降维步骤时,TI 方法被应用于约简数据或校正数据。由于多个生物过程通常在细胞内同时发生,因此逐步消除其他过程的生物效应可能有助于隔离预期轨迹。例如,T 细胞可能在成熟过程中进行细胞周期转换 (Buettner et al,2015)。此外,由于一些性能最好的 TI 方法依赖于聚集数据,TI 通常在聚集后进行。推断轨迹中的聚类可能代表稳定或亚稳态(参见亚稳态;图 7B 和 C)。随后,RNA 速度可以叠加到轨迹上,以增加方向性 (La Manno et al,2018)。

推断轨迹不一定代表生物过程。首先,这些仅表示转录相似性。少数 TI 方法包括对其模型中不确定性的评价 (Griffiths et al,2018)。因此,需要更多信息来确认是否确实采集了生物过程。这些信息可以以扰动实验、推断调控基因动力学和 RNA 速度支持的形式出现。

问题和建议: •我们建议以 Saelens et 等人(2018)的综述为指南。 •推断的轨迹不一定代表一个生物过程。 应该收集进一步的证据来源来解释轨迹。

Gene expression dynamics

一种支持推断轨迹不是拟合转录噪声结果的方法是在基因水平分析轨迹。假时变化平滑的基因表征了轨迹,可用于识别潜在的生物学过程。再者,这组轨迹相关基因有望包含调控建模过程的基因。调节基因帮助我们理解如何以及为什么生物过程被触发,并代表潜在的药物靶标 (Gashaw et al,2012)。

虽然早期发现轨迹相关基因的方法涉及沿轨迹在细胞群之间进行 DE 测试 (Haghverdi et al,2016;Alpert et al,2018),但我们现在通过倒退假时基因表达检测沿轨迹变化的基因。为了使表达沿该协变量平滑变化,通过拟合样条或通过额外的局部回归步骤(例如 loess)平滑假时间。回归框架的噪声模型假设和用于描述假时间函数表达式的函数类别不同。通过对伪时间依赖基因进行模型选择,获得潜在的调控基因。伪时间上的 DE 测试被轨迹推理方法混淆,就像集群之间的 DE 测试被集群方法混淆一样(参见集群注释部分)。因此,在该设置中获得的 P 值不应视为显著性评价。

目前很少有专门的基因时间动力学工具存在。BEAM 是集成到 Monocle TI 流水线中的工具 (Qiu et al,2017a),允许检测分支特异性基因动态。在此管道之外,用户可以选择 LineagePulse(https://github.com/YosefLab/LineagePulse),它考虑了脱落噪声,但仍在开发中,或者使用 limma 包 (Ritchie et al,2015) 或标准 R 库编写自己的测试框架。可在在线弹弓教程 (Street et al,2018) 和图 7E 中找到这方面的示例。

由于可用的工具很少,研究基因时间动态的最佳实践还不能确定。基因动力学的探索性研究当然有可能使用上述所有的方法。高斯过程是研究基因时间动态的一个自然模型。此外,检测调控模块而不是单个基因可能会提高信噪比并促进生物学解释。

Metastable states

轨迹的细胞水平分析研究假时间内的细胞密度。假设细胞以无偏倚的方式被取样,沿着轨迹的密集区域表明首选转录状态。当把轨迹解释为一个时间过程时,这些致密区域可能代表亚稳态,例如,发展(Haghverdi 等,2016)。我们可以通过绘制假时间坐标直方图(图 7C)找到这些亚稳态。

Cell-level analysis unification

聚类和轨迹推断代表了单细胞数据的两种不同观点。这两个视图可以在粗粒度图表示中进行协调。通过将单细胞簇表示为节点,将簇之间的轨迹表示为边缘,可以表示数据的静态和动态性质。这种统一是由基于分割的图抽象工具提出的(PAGA;图 7D;Wolf et al,2019)。PAGA 使用一个细胞簇相互作用的统计模型,在细胞簇节点之间放置一个比预期更相似的边。在最近的综述中,PAGA 优于其他 TI 方法(Saelens 等,2018)。这是唯一审查的方法能够应付断开的拓扑和复杂的图表包含周期。这个特性使 PAGA 成为一个有用的工具,可以可视化整个数据集的拓扑结构,以便进行探索性分析。

Gene-level analysis

而我们到目前为止主要集中在表征细胞结构的基因水平分析方法,单细胞数据的基因水平分析具有更广泛的范围。差异表达检测、基因集分析和基因调控网络推断直接研究数据中的分子信号。这些方法不是描述细胞的异质性,而是使用这种异质性作为理解基因表达的背景。

Differential expression testing

关于表达数据的一个常见问题是,在两种实验条件下是否存在差异表达的基因。DE是一个有大量文献证明的问题,它起源于bulk rna 基因表达分析(Scholtens & von Heydebreck, 2005)。相对于bulk差异测试的一个优点是,我们可以通过在细胞识别簇中执行测试来解释单细胞环境中的细胞异质性。这种设置告诉我们,在特定的实验条件下,单个细胞的身份是如何进行转录反应的(Kang et al, 2018)。

尽管设计来回答相同的问题,但 bulk 和单细胞 DE 工具在方法上有所不同。虽然开发了bulk 方法以从少量样本中准确估计基因方差,但单细胞数据不存在此问题。另一方面,单细胞数据包含独特的技术噪声伪影,如脱落和高细胞间变异性 (Hicks et al,2017;Vallejos et al,2017)。专门为单细胞数据设计的方法考虑了这些人为因素 (Kharchenko et al,2014;Finak et al,2015)。然而,最近一项大规模的 DE 分析比较研究表明,bulk DE 测试包的性能与性能最好的单细胞工具(Soneson & Robinson, 2018)此外,当通过在测试中引入基因权重使散装工具适合模拟单细胞数据时,建议这些工具优于其单细胞对应物 (Van den Berge et al,2018)。根据该比较,性能最佳的 DE 分析工具为 DESeq2 (Love et al,2014) 和 EdgeR (Robinson et al,2010),结合 ZINB-wave (Risso et al,2018) 估计的权重。需要包括加权批量 DE 检测方法的独立比较研究来确认这些结果。

加权批量 DE 测试的改进性能是以牺牲计算效率为代价的。鉴于单细胞实验中细胞数量增加的趋势,算法运行时间正成为方法选择中越来越重要的考虑因素。因此,single-celltool MAST (Finak et al,2015) 代表了重量bulk DE 工具的有效替代品。MAST 使用栅栏模型来解释脱落,同时建立依赖于条件和技术协变量的基因表达变化模型。它是上述研究中表现最好的单细胞 DE 测试方法(Soneson & Robin- son), 并在单个数据集的小规模比较中,表现优于bulk和单细胞方法 (Vieth et al,2017)。虽然 emast 的运行时间比加权批量方法快 10-100 倍 (Van den Berge et al,2018),但使用 limmaCvoom 可实现进一步 10 倍加速 (Law et al,2014)。尽管 limma 是一种bulk rna DE 试验方法,但 limmaCvoom 已被证明可实现与 MAST 相当的性能。

未校正的实测数据应用于 DE 检验,解释混杂因素对稳健估计差异表达基因至关重要。虽然 DE 测试工具通常允许用户灵活地加入混杂因素,但用户必须警惕哪些变量被添加到模型中。例如,在大多数单细胞实验设置中,样本和条件协变量被混淆,因为在多种条件下很少可能获得单个样本。如果我们将样本和条件协变量合并到模型中,与这些协变量相关的变异性就不能再明确分配。因此,当检验条件时,我们不能将样本协变量纳入给定形式的模型中。当校正多个分类批次协变量时,目测发现混杂的协变量组变得越来越困难。在这种情况下,检验模型设计矩阵是否是满秩的是有帮助的。即使设计矩阵不是完全秩,DE 测试工具也会经常调整矩阵并在没有输出警告的情况下运行。这不会产生预期结果。

在我们在此描述的情景中,条件协变量在实验设置中确定。因此,对该协变量(在同一聚类内)的 DE 检验独立于聚类程序。该设置区分了条件上的 DE 测试和分群上的 DE 测试。在条件下获得的 DE 检验 P 值代表预期的显著性指标,必须进行多重检验校正。为了减少多重检测负担,可能不相关的转录本可以从数据集中排除。而假基因或非编码 RNA 可以提供信息 (An et al,2017),它们在分析中往往被忽略。

问题和建议: •DE测试不应该在校正数据(去噪、批次校正等)上进行,而应该在模型中包含技术协变量的测量数据上进行。 •用户不应该依赖DE测试工具来纠正带有混淆的协变量的模型。模型规范应该谨慎执行,以确保完整的设计矩阵。 •我们建议使用MAST或limma进行DE测试。

Gene set analysis

基因水平分析方法通常会产生长长的候选基因列表,难以解释。例如,数千个基因可能在处理细胞和对照细胞之间差异表达。我们可以根据共享特征将基因分组到集合中,并检测这些特征是否在候选基因列表中过度表达,从而促进这些结果的解释。

基因集信息可以在各种应用的精选标签数据库中找到。为了解释 DE 结果,我们通常根据共同的生物学过程对基因进行分组。生物过程标签存储在数据库中,如 MSigDB (Liberzon et al,2011)、Gene Ontology (Ashbuer et al,2000;the Gene Ontology Consortium,2017) 或 pathway 数据库 KEGG (Kanehisa et al,2017) 和 Reactome (Fabregat et al,2018)。Huang et al (2009) 和 Tarca et al (2013) 回顾并比较了大量工具,可以测试基因列表上注释的富集。

单细胞分析领域的一个最新进展是利用配对的基因标记进行配体受体分析。这里,细胞簇之间的相互作用是根据受体及其同源配体的表达推断的。配体受体对标记可以是从最近的 CellPhoneDB 中获得 (Vento-Tormo et al,2018),并使用统计模型解释跨集群的高表达基因 (Zepp et al,2017;Zhou et al,2017;Cohen et al,2018;Vento-Tormo et al,2018)。

Gene regulatory networks

基因并不独立发挥作用。相反,一个基因的表达水平是由与其他基因和小分子的调控相互作用的复杂的相互作用决定的。揭示这些调控相互作用是基因调控网络 (GRN) 推理方法的目标。

基因调控网络推断是基于相关、互信息等基因共表达的测量,或通过回归模型进行的(Chen & Mar, 2018)。如果两个基因表现出一种共表达信号,即使考虑到所有其他基因都是潜在的混杂因子,这些基因也被认为具有因果调控关系。推断基因调控关系与轨迹相关调控基因的检测有关。事实上,几种单细胞 GRN 推理方法使用轨迹与差异分析方程模型 (Ocone et al,2015;Matsumoto et al,2017)。

虽然有专门针对scRNA-seq数据开发的GRN推理方法(SCONE: Matsumoto et al, 2017; PIDC: Chan等人,2017;最近的一项比较显示,bulk和单细胞方法在这些数据上的表现都很差(Chen & Mar, 2018)。GRN推断方法仍可能为识别生物过程的因果调节因子提供有价值的见解,但我们建议谨慎使用这些方法。

问题和建议: •用户应警惕由此推断出生物关系中的不确定性。为调控关系而富集的基因模块比单个更可靠。

Analysis platforms

单细胞分析工作流是独立开发的工具。为了促进数据在这些工具之间的转移,围绕着一致的数据格式开发了单细胞平台,这些平台为分析管道的建设提供了依据。当前可用的平台存在于 R (McCarthy et al,2017;Butler et al,2018) 或 Python (Wolf et al,2018) 的命令行中,并作为本地应用程序 (Patel,2018;preprint:Scholz et al,2018) 或 Web 服务器 (Gardeux et al,2017;Zhu et al,2017) 使用图形用户界面 (GUI)。Zhu et al (2017) 和 Zappia et al (2018) 提供了平台概述。

在命令行平台中,Scater (McCarthy et al,2017) 和 Seurat (Butler et al,2018) 很容易与 R Bioconductor 项目提供的大量分析工具连接 (Huber et al,2015)。Scater 在 QC 和预处理方面具有特别的优势,而 Seurat 可以说是最流行和最全面的平台,它包括了大量的工具和教程。这个小组最近增加了 scanpy (Wolf et al,2018),这是一个不断增长的基于 python 的平台,它展示了对大量细胞。它充分利用了越来越多的用 Python 编写的工具,这些工具在机器学习应用程序中特别流行。

图形用户界面平台使非专业用户能够构建单细胞分析工作流程。用户通常通过规定的工作流程进行指导,以便于分析,但也限制了用户的灵活性。这些平台尤其适用于探索性分析。Granatum (Zhu et al,2017) 和 ASAP (Gardeux et al,2017) 等平台集成的工具不同,Granatum 包括的方法种类更多。作为网络服务器,这两个平台是现成的,但计算基础设施将限制其扩展到大型数据集的能力。例如,在仅有 92 个细胞的数据集上测试 ASAP。基于 Web 的 GUI 平台的替代方案是程序包,例如 FASTGenomics(预印:Scholz et al,2018)、iSEE (Rue-Albrecht et al,2018)、IS-CellR (Patel,2018) 和 Granatum(在本地服务器上运行)。这些都是平台和 GUI 包装器,可以与本地可用的计算能力进行缩放。未来,人类细胞图谱门户网站的持续发展(https://www.humancellatlas.org/data-sharing)将带来更强大的可视化数据探索工具,可扩展到大的cell数。

Conclusions and outlook

我们回顾了典型的 scRNA-seq 分析工作流程,并展示案例研究教程(httpsfwww.github.com/theislab/single-cell-tutorial)。本教程旨在遵循现有方法确定当前的最佳实践。虽然聚合单个最佳实践工具不能保证就是最佳的分析流程,但是我们的工作流程代表了单细胞分析领域最新技术水平的最新概览。因此,它为新来者提供了进入该领域的合适切入点,并借助人类细胞图谱的努力,以建立 scRNA-seq 分析的最佳实践 (preprint:Regev et al,2018)。应当注意的是,现有方法比较必然落后于最新方法开发。因此,我们提到了尚未在可能情况下独立评估的新发展。随着未来新的和更好的工具的发展,以及进一步的比较研究,这里提出的个别工具建议将需要更新,但关于数据处理阶段的一般考虑应保持不变。

两个特别感兴趣的开发途径是深度学习工作流和单细胞组学集成,因为它们有可能破坏现有分析流程。由于其向大数据扩展的灵活性,深度学习已经彻底改变了从计算机视觉到自然语言处理的领域,并开始在基因组学中产生强大的影响 (Webb,2018)。scRNA-seq 的首批应用开始从降维到去噪(例如 scVis:Ding et al,2018;scGen:preprint:Lotfollahi et al,2018;DCA:Eraslan et al,2019)。最近,深度学习已被用于产生一个嵌入式工作流,该工作流可拟合数据、消噪并在模型框架内进行聚类和差异表达等下游分析 (scVI:Lopez et al,2018)。在该设置中,可能将噪声和批效应估计值纳入下游统计检验中,同时保持数据方差的准确估计值。

随着单细胞 omic 技术的提高,对集成 omic 分析的需求将逐渐增长(Tanay & Regev, 2017)。未来的单细胞平台将必须能够处理不同的数据源,如 DNA 甲基化 (Smallwood et al,2014)、染色质可及性 (Buenrostro et al,2015) 或蛋白质丰度 (Stoeckius et al,2017),并包括整合这些模态的工具。对于这种设置,不再可能只使用单个读取或计数矩阵,我们将其用作本教程的起点。然而,平台已经在适应多模态数据结构,以整合 RNA velocity,这是根据未拼接和拼接读数数据计算的 (La Manno et al,2018)。单细胞多基因整合可以通过一致性聚类方法(SC3)、多基因因素分析 (Argelaguet et al,2018) 或多基因调控网络推断 (Colome-tatchen) 来实现。

0 人点赞