单细胞RNA测序(scRNA-seq)是重建细胞分化轨迹的有力方法。然而,同时推断分化的状态与方向是一项具有挑战性的工作。今天分享的文章于2020年1月发表在期刊Science上,文章作者利用转录多样性的度量方法来开发了计算框架(CytoTRACE),从而利用scRNA-seq数据预测分化状态。文章题为:Single-cell transcriptional diversity is a hallmark of developmental potentia 。DOI:10.1126/science.aax0249
摘 要
单细胞RNA测序(scRNA-seq)是一种重建细胞分化轨迹的有效方法。然而,同时推断分化的状态与方向是具有挑战性的任务。在这里,我们展示了一个简单而精确的发育潜力的决定因素——每个细胞表达基因的数量——并利用这个转录多样性的测量来开发一个计算框架(细胞追踪)来预测来自scRNA-seq数据的分化状态。当应用于不同的组织类型和生物体时,细胞追踪技术在解决52条实验确定的发育轨迹方面的表现优于先前的方法,并且可以解析将近19000个带注释的基因集。此外,该方法也促进了静态干细胞的鉴定,并揭示了与乳腺癌发生有关的基因。因此,本研究建立了一个基于RNA的发育潜力关键特征和一个描述细胞层次结构的平台。
数据分析情况
作者从34篇研究中选择42个单细胞scRNA-seq测序数据集用来鉴定和验证发育潜力。
详细信息作者放在了补充材料里面。放一张图片,显示部分数据集信息。
细胞过滤和基因过滤:
表达矩阵可以下载:
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSEGSE138536.
主要结果
1
基于RNA相关的单细胞分化状态
我们的最初目标是在不需要对发育方向或标记细胞命运转变的中间细胞状态有先验知识的情况下,确定强大的,基于RNA的发育潜能决定因素。利用scRNA-seq数据,我们评估约 19000细胞能力的潜在关联,包括分子特征数据库中所有可用的基因集(n = 17810), 896个中的所有可用基因集,涵盖了来自ENCODE和ChEA的转录因子结合位点的896个基因集,源自mRNA表达的干性指数(mRNAsi),以及三种推断干性作为转录熵的量度的计算技术[StemID,SCENT和SLICE]。我们还探讨了“基因计数”效用,即每个细胞中可检测到的表达基因的数量。虽然在有限的环境中观察到与分化状态相关的现象[小鼠肺泡发育和斑马鱼血小板发育],但这种关联的可靠性以及它是否反映了细胞个体发育的一般特性尚不清楚。为了评估这些基于rna的特征,我们编制了一个训练队列,由9个标准的scRNA-seq数据集组成,这些数据集具有经实验证实的分化轨迹。选择这些数据集是为了对早期研究中常用的基准数据集进行排序,并确保广泛抽样从哺乳动物受精卵到终分化细胞的发育状态(表S1)。总的来说,训练队列包含了3174个单细胞,跨越49种表型、6个生物系统和3个scRNA-seq平台(图S1A和表S1)。为了评估性能,我们使用Spearman相关性来比较每个基于rna的特征,平均表型,与已知的分化状态(图1A)。然后,我们对9个训练数据集的结果求平均值,得出每个特性的最终得分和排名(表S2)。这一系统筛选揭示了许多已知的和未预料到的分化状态相关关系(图1B、图S1B和表S2)。然而,一个特别的特征显示了显著的性能:每个细胞可检测表达的基因数量(基因计数)。这一数据驱动的特征出现在排名前1%的列表中(18,711中有104个),与成熟的干细胞签名(包括细胞周期和多能性基因)相比显得更为有利,但也显示出独特的生物学特性和更广泛的适用性。
1
创建CytoTRACE方法
每个细胞表达的基因数量通常在关键技术参数方面表现出一致的性能,并且通常与mRNA含量相关(图S4至S7)。然而,在一些数据集中,如体外向胃泌层分化的hESCs(27),每个细胞中表达的基因数量表现出相当大的表型内变异(图2A,左)。事实上,当在单细胞水平上进行评估时,我们计算机模拟筛选中的412个预定义基因集的表现优于基因计数(图S8A和表S2)。由于scRNA-seq设计用于捕获单细胞基因表达,因此我们认为其表达方式与基因计数相关的基因可能会更好地捕获分化状态。实际上,通过简单地平均与每个数据集(材料和方法)中的基因计数高度相关的基因的表达水平,所得的特定于数据集的基因计数签名(GCS)成为屏幕中性能最高的指标,我们评估的预定义基因集和计算工具(图S8,A至D)。因此,我们基于单个细胞间的转录协方差,实现了一个两步的步骤来直接平滑GCS(图2A,右侧,以及材料和方法)。所得方法,我们称为CytoTRACE [用于使用基因计数和表达进行细胞(Cyto)轨迹重建分析;https://cytotrace.stanford.edu],优于我们评估的GCS和其他基于RNA的功能(图S8和表S2)。
1
跨组织,物种和平台的性能评估
为了验证我们的发现,我们从26项研究中收集了33个额外的scRNA-seq数据集(图S10A,表1,以及材料和方法)。这些数据集代表了不同的发育和分化过程,由141,267个单细胞组成,涵盖266个表型,9个生物系统,5个物种(包括2个完整生物)和9个scRNA-seq平台(3个基于液滴和6个基于板的平台)协议,范围从平均约10,000个唯一分子标识符到每个细胞约100万个读数(图S5A)。在单细胞水平上进行评估时,CytoTRACE在验证队列中的表现优于所有评估的基于RNA的特征(图2B),与排名第二高的方法相比,其性能显着提高(中位数rho = 0.72 vs 0.53)。排名第二的方法;P = 0.001)(图2C;图S10B;表S2和S4)。在包括骨髓分化在内的许多复杂系统中都观察到了类似的改善(图S10C)。此外,88%的数据集中,CytoTRACE结果与分化方向呈正相关。此外,在组织类型,物种,分析的细胞数量,时间序列实验与发育状态快照或基于板的与基于液滴的技术之间,未观察到明显的性能偏差(图S12)。进一步评估CytoTRACE,我们用RNA速度相比,动力学模型,该模型可以预测未来细胞状态,但仅限于scRNA-seq数据和连续的命运的转换。为了分析RNA速度输出,其中包括对每个细胞的个性化预测(图S13),我们确定了跨越当前和未来细胞状态的所有成对状态,跨越了已知的发展潜力变化(从小到大的顺序,反之亦然)。然后,我们在具有连续发展过程的五个数据集上对已知的分化状态对每个预测的轨迹进行评分(图S13B以及材料和方法)。为了进行公平的比较,我们在相同的细胞上对CytoTRACE进行了评估。尽管两种方法在RNA velocity在某些细胞数据集上的表现相似,但CytoTRACE总体上获得了更高的准确度(中位数分别为74%和54%;图S13C)。这可能是由于RNA速度模型假定了较短的mRNA半衰期和发育时间尺度。在评估了单个数据集的性能之后,我们接下来询问是否可以将CytoTRACE应用于通过批量校正统一的独立scRNA-seq数据集。为了解决这个问题,我们利用相互最近邻和高斯核归一化Scanorama的技术(材料和方法)。然后,我们使用这种方法合并了几个数据集。无论我们是否整合了在不同scRNA-seq平台上分析的数据集(图3A)还是包含发育上不同的细胞类型的数据集(图S14),CytoTRACE预测的单细胞排序是准确的。
1
干细胞相关基因和层次
鉴于CytoTRACE能够恢复几乎每个评估的数据集中的分化方向的能力,我们接下来探索了其在没有先验知识的情况下识别未成熟表型标记的潜力。通过根据与CytoTRACE的相关性对基因进行排序,可以在86%的基准数据集中轻松地对未成熟细胞的标记进行优先排序(图S15A)。谱系关系及其相关基因也可以通过专用的分支检测工具来确定,如Monocle 2;然而,这些方法并不能预测生物过程的起点。例如,当应用于4442个骨髓细胞时,Monocle 2识别出23个可能的“根”,从中计算伪时间值(图3B,左)。相比之下,在没有用户输入的情况下,细胞描记法很容易识别出正确的根(图3B,右侧,图S16, A和B)。值得注意的是,其他方法在细胞示踪导向下也表现出了较强的性能(图S16G和表S4)。我们接着问,细胞痕迹是否可以从下游祖细胞中区分出循环和长期或静止的干细胞。由于这些群体已经在骨髓中得到了很好的描述(3),我们在小鼠造血系统中研究了这个问题。虽然循环和静止造血干细胞(HSC)亚群被正确预测为分化程度较低,但只有增生性造血干细胞明显高于早期祖细胞(图3C)。然而,这个结果并不意外,因为静止细胞代谢活动减少和RNA含量低(1),通过设计一个简单的方法来可视化推断RNA含量的函数CytoTRACE(图3 d,顶部),我们观察到一个明显的山谷RNA丰富恰逢Hoxb5表达升高,长期的一个标志或静止的肝星状细胞(图3 d,底部)。由于这些细胞不能仅通过基因计数或RNA含量来识别,因此本分析证实了细胞追踪的实用性,并展示了一种从scRNA-seq数据中阐明组织特异性干细胞的方法。
临床意义
在表征不同的组织、器官和整个生物体的发育过程中单细胞转录组方法显示了强调了对基于RNA的发育潜力的强大决定因素的需求。在对42个发育过程中,近15万个单细胞的约19,000个特征的分析中,我们发现基因计数,即每个细胞中可检测到的表达基因的数量,与转录的多样性和分化状态密切相关。尽管在特定的实验系统(例如,小鼠肺泡上皮发育,斑马鱼血小板生成和来自hESCs26-28分化的神经元)中已经有所发现(关联),但是我们首次证实了这种关联:
- 基于近19000个RNA特征的方法优于大多数具备干细胞推理工具和预定义的分子特征的工具。
- 通常独立于物种,平台和组织类型
- 广泛适用于整个细胞本体发育。
虽然先前的研究已经证明在特定的发育环境(如胚胎干细胞、肠干细胞和神经干细胞)中,染色质可及性和/或可塑性的整体降低,但是我们的定量研究扩展了这一结果范围。此外,如之前所示ref65,我们的数据表明,表型相同的单个细胞之间的基因计数的差异并不完全是由于"drou-out"引起,也有可能是由于转录组的差异采样(图S3)。因此,我们的数据与一个模型是一致的,在这个模型中,较不成熟的细胞保持较松散的染色质,以便对转录组进行更广泛的采样,而分化程度较高的细胞在特化时通常限制染色质的可及性和转录多样性(图S6C)66。未来的研究将需要进一步确认该模型的有效性,并评估其在不同组织间隔、发育时间点和表型状态之间的相关性。
基因数量的鉴定识别是衡量细胞分化状态的主要指标,这也是促进我们创立CytoTRACE的动力。CytoTRACE是一种计算框架,它利用基因计数,并在单细胞水平上显著改善细胞分化状态。与大多数现有的沿袭轨迹分析方法不同,CytoTRACE可以以一种独立于特定时间尺度或数据中存在连续发育过程的方式预测相对状态和分化方向,而与特定时间尺度或数据中是否存在持续发展的过程无关。CytoTRACE也与组织类型,物种和scRNA-seq平台无关。
我们预计这些优势将是单细胞的重要应用成为可能。例如,通过使用细胞追踪分析人类乳腺肿瘤的scRNA-seq谱,我们发现了与分化程度较低的管腔祖细胞相关的新候选基因,并确立了GULP1在乳腺肿瘤发生中的新作用。这些数据强调了CytoTRACE在描述肿瘤分化层级和发现新的生物标志物和治疗靶点方面的实用性。此外,通过将RNA含量与CytoTRACE结合,我们首次证明,可以使用无监督的计算机方法可以将静止的成年干细胞与下游祖细胞区分开来。考虑到静止干细胞的巨大再生潜力,它们在人体组织中的识别在再生医学和癌症治疗中具有广泛的意义。
尽管,CytoTRACE可以概括从单一谱系到整个生物的发育顺序,但仍然存在一些挑战。例如,尽管几乎所有数据集的分化方向都被正确预测,但仍有12%的病例被误判了。这些数据集也被证明其他方法存在这一问题,这也意味着将来可能具有改进的机会。此外,CytoTRACE当前以等级空间表示,无法在不同数据集之间直接比较。
总之,我们得出结论,每个细胞表达基因的数量是其发育潜力的一个标志。通过利用scRNA-seq数据的这种数据驱动特性,我们开发了一个广泛适用的框架来解决单细胞分化层次结构方法-CytoTRACE。按照设想,我们的方法将补充现有的scRNA-seq分析策略,对在整个多细胞生命中鉴定复杂组织中的未成熟细胞及其发育轨迹具有重要意义。
(本篇文章开发的在线工具https://cytotrace.stanford.edu/)