在单细胞转录组中,比较经典的分析内容:单细胞拟时序分析(轨迹分析),主要为了对复杂的细胞亚群进行异质研究,主要应用于干细胞及其后代,来绘制从多种祖细胞到完全分化细胞的进展情况。目前已经有了多种方法进行研究,今天主要介绍的Slingshot分析软件。
这篇文章发表时间是2018年,但是目前应用的人也是较多的。主要应用于细胞谱系和拟时序推断。文章作者提出的Slingshot这种新方法,正确识别了一到三个分支轨迹的生物信号,并通过模拟验证,发现具有更准确的伪时序推断结果(Street, Risso et al. 2018)。
研究背景
传统的转录组学研究为后续的分子实验验证提供一个研究基础,但是无法探究内部的细胞异质性的丰度。因此单细胞表达图谱为研究者在单细胞的精度水平上提供了良好的研究基础,明确不同亚群之间复杂的调控关系,但是单细胞组学的数据本身具有高噪声的批次效应影响,因此一个可以去除其效应的分析工具是十分重要的。
当这个单细胞图谱中的细胞发生转变时,会影响其转录丰度的变化,由一个时间变化的谱系关系决定。同时在发育过程中,有多种谱系关系存在,因此在不同的谱系关系中寻找这种复杂的发育关系是十分重要的。
目前已经有多种方法开始进行轨迹分析。目前应用比较多的是Monocle(后几期介绍,这里就不赘述了)。下表是目前应用比较多的单细胞组学的拟时序分析方法的优缺点汇总。
基于上述方法,作者提出了Slingshot方法,一种专为多个分支谱系设计的新型谱系推理工具。Slingshot 分析主要有两步:1)全局谱系结构的推断2)沿每个谱系的细胞的拟时序变量进行推断。Slingshot 的第一阶段使用MST 来稳定地识别全局谱系结构的关键元素,即谱系数量及其分支位置。 这使我们能够识别新的谱系,同时还可以使用特定的知识来对树的某些部分处理(例如,终端细胞状态)。 对于第二阶段,一种称为同时主曲线的新方法,将平滑的分支曲线拟合到这些谱系,将全局谱系结构的知识转化为每个谱系的基础细胞级拟时序变量的稳定估计。 Slingshot 方法在开源 R 包 slingshot 中实现(https://github.com/kstreet13/slingshot 获取),并通过 Bioconductor 项目 (http://www.bioconductor.org) 安装。
Slingshot包含有进行拟时序分析的分析内容外,也可以进行部分的上游分析内容。Slingshot没有指定上游的分析方法,对不同的数据类型进行了考虑,便于后续适合于特定数据集的归一化、降维与聚类的方法。
Results and discussion
Slingshot 将多谱系推断问题分为两个阶段:
1. 谱系的识别,即细胞簇的有序集合,其中所有谱系共享一个起始簇,并且每个谱系通向一个唯一的终端簇。
2. 对于每个谱系,鉴别拟时序的方向,即代表每个细胞向最终状态的转录进程的一维变量。
单细胞转录组数据分析的主要挑战之一是细胞之间较高的异质性。除了可能影响任何(批量)RNA-Seq实验的大量生物学和技术影响外,单细胞数据还可能包含transcriptional bursting和drop-out的影响。因此,我们认为robustness to noise, unwanted technical effects和数据预处理对系谱分析方面是十分重要的。因此Slingshot可以灵活的捕获到复杂的系谱结构,并处理高噪音的单细胞数据。
Real datasets
Robustness to noise
作者首先使用了包含单个谱系的人类骨骼肌成肌细胞(HSMM)数据集对不同的轨迹分析的方法进行测试,对结果进行可视化。图2中,表明了212个细胞的轨迹分析结果。Monocle 软件在单个细胞上构建 MST,并根据 PQ 树沿 MST 的最长路径对它们进行排序,在不同的分析方法中相对不是很稳定。Monocle绘制的路径变化很大,对低噪音的数据集很敏感。相比之下,其他方法强调其主要轨迹构造的稳定性并基于正交投影获得拟时序值,从而获得更稳定的排序。
Multiple lineage inference
轨迹分析中最大的难度之一是确定分支事件的数量和位置。一些分析在分支方法引入简化的假设或对结果的限制,如要求用户预先指定分支系数仅一个或两个。Slingshot允许进行多谱系检测,而无需预先指定或限制谱系数量。反之,Slingshot提供了一个框架,用于选择性地合并本地化的已知的生物学知识,该分析方法不会限制谱系分析部分及全部内容。对前面的数据进行谱系的细胞类型鉴定发现Slingshot鉴定出的谱系与先前的生物学知识一致,但其他谱系检测方法却没有。Monocle 2 仅鉴定出两个谱系,其中一个GBC细胞,这是一种已知的过渡状态,并且两者都含有sustentacular cells和 microvillous cells,这是独立谱系的发育终点细胞。Monocle 还错误地将 GBC细胞 识别为终末状态,但正确识别了终止于 mOSN 和 mSus 细胞的谱系。
方法比较
在只有两个谱系的情况下,大多数 Monocle分析的结果相对较好,通常产生精度分数的双峰分布,一个峰值在 0 附近,一个更大的峰值在 0.5 或更高。然而,Monocle 也比任何其他方法更频繁地出现错误,这些错误似乎与更大的样本量有关。我们还注意到,Monocle 总是提供正确数量的谱系,而大多数其他方法都没有。在我们实施的策略中,使用较大的基因集(由最高的 5000 个均值和方差选择)和二维 ICA 实现了最高的中位准确度得分。Slingshot的准确率分数分布同样是双峰的,但两个峰值都略高。
Conclusions
我们引入了一种新的方法,Slingshot,用于单细胞基因组学数据中的谱系和拟时序推断。由于 Slingshot 将谱系分析分为两个步骤,因此我们能够为每个分析内容使用适当的方法,并避免在稳定性和检测复杂结构的灵活性之间进行判断。使用基于集群的 MST 进行谱系推理,使 Slingshot 能够识别数据中潜在的复杂全局模式,而不会对单个细胞过于矫正。我们新颖的伪时同步主曲线方法将主曲线的稳定性和鲁棒性特性扩展到多个分支谱系的情况。归根结底,单细胞数据是高噪音、高维的,并且可能包含大量相互竞争的、相互交织的信号。在存在此类数据的情况下,Slingshot为谱系和拟时序推理提供了一种强大的模块化方法,允许新的谱系发现,有意义地结合生物约束,并适应于现有的分析流程。
参考文献
Street, K., et al. (2018). "Slingshot: cell lineage and pseudotime inference for single-cell transcriptomics." BMC Genomics 19(1).