Nat. Genet. | 哺乳动物胚胎发生细胞轨迹的系统重建

2022-04-19 10:29:10 浏览数 (2)

编译|王海云 审稿|苏延森

本文介绍由美国华盛顿大学基因组科学系的Chengxiang Qiu和美国洛克菲勒大学Junyue Cao等人共同发表在 Nature Genetics 的研究成果:作者着手整合几个与小鼠原肠胚形成和器官形成相关的单细胞RNA序列数据集。此外,作者定义了跨越E3.5到E13的19个连续阶段中每个阶段的细胞状态,试探性地将它们与其伪祖先和伪后代联系起来。尽管是通过自动化程序构建的,但由此产生的哺乳动物胚胎发生轨迹(TOME)在很大程度上与我们当代对哺乳动物发育的理解一致。作者还利用TOME指定转录因子(TF)和TF基序作为新细胞类型出现的每个分支点的关键调节因子。最后,为了便于脊椎动物之间的比较,作者对斑马鱼和青蛙胚胎发育相关的单细胞数据集应用相同的程序,并根据共享的调节器和转录状态指定“细胞类型同源物”。

1简介

发育生物学的一个基本目标是了解胚胎发生过程中细胞类型之间的关系,以及每种细胞类型出现的分子程序。原则上,可以全面描述发育程序,然而,秀丽隐杆线虫——体积小、半透明、发育不变性——仍然是唯一一种能够实现这种完整描述的模式生物。在过去四年中,包括作者在内的很多研究人员开发并应用了单细胞数据分析的新技术,以开发“全动物”规模的模式生物,包括蠕虫、苍蝇、斑马鱼、青蛙和小鼠,这些研究为后生动物发育的全球观点奠定了基础。

总的来说,这些研究跨越了小鼠胚胎从几十个少数类型的细胞(E3.5)发育为数百万个数百类型的细胞(E13.5)。然而,与这些研究相关的数据尚未进行系统整合。由于技术原因以及小鼠发育的复杂性,这些因素都为数据整合带来了挑战。

在这篇文章中,作者着手从E3.5到E13.5系统地重建哺乳动物胚胎发生的主要细胞轨迹。他们的策略受Briggs及其同事的启发,并做出了几个假设:1)尽管老鼠的发育是可变的,但关键模式在野生动物中是不变的;2) “Omnis cellula e cellula”也适用于细胞状态,即在给定时间点观察到的细胞状态必须源于前一时间点出现的细胞状态;3)采样频率和深度足够高,新检测到的细胞状态不会产生于前一个时间点未检测到的先前细胞状态;4) 如果时间增量足够小,转录相似性是连接相邻时间点观察到的相关细胞状态的有效手段。

值得注意的是,与Sulston的秀丽隐杆线虫开创性图谱不同,作者在这里侧重于重建细胞轨迹,这是一个与细胞谱系相关但绝不等同的概念。作者的目标是在小鼠发育过程中,为细胞类型的分子状态提供一个连续的、可导航的路线图。这样的路线图可能会限制组成细胞类型之间的潜在谱系关系,但没有明确规定它们。

2结果

小鼠胚胎发生细胞轨迹的系统重建

文章使用的数据集来自跨越E3.5到E13.5的19个时间点或阶段的468个样本。对于每个阶段,作者进行数据预处理,然后进行Louvain聚类和基于标记基因表达的单个聚类的手动注释。将“细胞状态”定义为给定阶段的注释集群,并且在19个时间点上确定了413个细胞状态,每个时间点都收到了84个细胞类型注释中的一个。

对于每一对相邻的阶段,作者将细胞投射到一个共享的嵌入空间。为了解决数据批次效应带来的影响,在整合之前进行了基于锚定的批量校正。在联合嵌入中,采用了基于k-最近邻(k-NN)的启发式方法来连接相邻阶段之间的细胞状态。例如,对来自两个相邻时间点E6.25和E6.5的scRNA序列数据进行聚类和注释,分别确定了5种和6种细胞状态(图1a)。如果共同嵌入这些数据并遵循上述程序,将E6.5处的5个细胞状态与E6.25处具有相同注释的5个细胞状态紧密连接起来。E6.5处的新细胞状态与原始条纹相对应,与E6.25的外胚层紧密相连,作者将其划分为其伪祖先(图1a)。将此方法应用于E6.5→E6.75和E6.75→E7.0后,进一步将原始条纹归类为新生中胚层、前原始条纹和原始生殖细胞的伪祖先。

作者在18对相邻的时间点上都应用了这种方法,得到一个有417个节点和468条边的有向无环图,用于描述哺乳动物胚胎发生轨迹(TOME)的轨迹(图1c)。

图1 小鼠胚胎发生细胞轨迹的系统重建

分子的系统发育轨迹能概括细胞的系统发育吗?

值得注意的是图1c(TOME)所示的图表并不反映细胞谱系,而是根据转录相似性推断的细胞状态之间的关系。关于“分子的系统发育轨迹是否能概括细胞的系统发育”这一问题,需要注意以下几点:

首先,胚胎外细胞状态和胚胎细胞状态之间没有边缘,不同胚层的胚胎细胞状态之间的边缘相对较少。在跨越生殖层之间的最强边缘“边界”中,有两条边缘连接E8.5神经嵴(PNS胶质细胞)和E9.5成骨细胞祖细胞的两个亚型,可能对应于成熟的神经嵴对骨的贡献;E8.5中间中胚层和E9.5肾上皮之间的另一条边缘,也是跨生殖层的既定贡献;以及E7.5-E8.0的尾侧外胚层和近轴中胚层之间的另一条边缘。

其次,80%的细胞类型在它们第一次出现时与一个单一的伪祖先紧密相关(边缘权重大于0.7)。这些强大的边缘通常尊重已建立的谱系关系,例如由下胚层产生的顶叶和内脏内皮层、由前原始条纹产生的脊索和最终内皮层、内脏中胚层产生的心肌细胞等。

第三,为一个细胞状态指定一个伪祖先。例如,血液内皮祖细胞经常被指定为E7.75-E8.25内皮细胞的假祖先。在其他情况下,明显的趋同可能反映了高度相关的细胞类型之间的不完全分离,而不是正在进行的分化(例如,脊索和最终内胚层之间的几个边缘;中胚层不同亚型之间的重复边缘)。然而,其他的情况反映了转录状态的真正收敛,即一个细胞类型有多个起源。

第四,给定细胞状态的真实谱系关系可以被在前一个时间点存在的高度相似的细胞状态所掩盖。值得注意的是,至少一些不准确性可以通过集中分析来通过区分新生和剪接转录本来解决,即RNA速度。

第五,对细胞状态的依赖,掩盖了发育生物学固有的连续性。例如,空间转录的异质性,通常表现为连续的梯度,被细胞类型或细胞状态的离散化所掩盖。在这里,作者通过不同的节点(例如前/中/后脑;近轴中胚层A/B/C),以有限的方式代表了空间异质性的各个方面,但这并不理想。

总之,分子轨迹通常概括了有充分记录的细胞系统发育,但也有明显的局限性。尽管如此,这张图在很大程度上与当代对哺乳动物发育的理解相一致,尽管它是通过自动化程序构建的。为了便于探索,作者创建了一个交互式网站,其中可以导航图1c中所示的节点和边。

对小鼠原肠形成过程中细胞状态的近似空间位置的推断

细胞间的空间关系是发育的一个关键,但在分析分解的细胞或细胞核时,这一信息丢失了。为了解决这一问题,一些研究小组开发了硅方法,将scRNA-seq数据与荧光原位杂交(FISH),或者将其他方法获得的空间分辨基因表达谱整合。在这里,作者试图利用Peng及其同事最近收集的数据,他们应用冷冻切片和批量RNA-seq(GEO-seq)来获得小鼠胚胎从E5.5到E7.5的精确区域的空间分辨转录组。受Peng等人估计E7.0 GEO-seq区域内内胚层亚群区域化分析的启发,作者利用TOME来估计每个GEO-seq区域内单个细胞类型的丰度。对于许多细胞类型和区域,这种方法似乎效果很好。

推断单个细胞类型的分子历史

接下来,作者试图推断单个基因在每个细胞轨迹过程中的连续表达水平,重点关注从E6.25开始的外胚层的衍生物。首先,作者利用了一个事实,即单个胚胎并不精确对应它们预期的时间点。利用伪时间,作者对单个胚胎(或包含每个样本的胚胎池)的伪胚表达谱进行了排序。由此产生的排序对下采样具有鲁棒性,与发育年龄很好地对应,但可能会在每个预期时间点区分早期和晚期个体(图2a-b)。

接下来,对于在E13.5时检测到的每个外胚层来源的细胞类型,作者计算了沿其推断历史的平滑的表达谱,如图2c所示,从每个胚层中选择的一种细胞类型的基因。尽管将数据源作为协变量,但这些推断的轨迹仍然与E8.5→E9.5中的批处理效应略有混淆,即从基于细胞的10X基因组学数据到基于核的sci-RNA-seq3数据的转换。

图2 推断单个细胞类型的连续分子历史

特定细胞类型关键转录因子的系统命名

受这些例子的启发,作者试图利用TOME系统地识别TFs,这些TFs是在早期哺乳动物发育过程中指定每个新出现的细胞类型的强有力的候选者。首先,作者基于与人类转录因子列表的同源性鉴定了1391个假定的小鼠蛋白。然后,对于TOME中给定细胞类型首次出现的每个分支点,启发式地将关键TF候选定义为:1)在新出现的细胞类型中,相对于伪祖先显著上调;2)新出现的细胞类型中至少在10%的细胞中检测到;3)相对于新出现的细胞类型,在任何“姐妹”边缘均没有显著上调(图3a)。对于每一个这样的关键TF候选基因,我们根据新细胞类型与其祖先/姐妹之间表达的倍数差计算了一个标准化分数。

总之,作者鉴定了531个与82种细胞类型中的一种或多种出现相关的候选关键TFs(每个细胞类型24个 /-15个;图3b)。大多数候选关键转录因子都是特定于一种或几种细胞类型的(52%仅与1或2种细胞类型相关)。尽管作者使用的自动化方法依赖于少数数据集,但许多这些TF被认为在相应细胞类型的出现中发挥了关键作用。

图3 特定细胞类型关键转录因子的系统命名

参与体内细胞类型规范的顺式调节基序的识别

尽管单细胞染色质可及性分析越来越能够确定胚胎和胎儿组织中的顺式调节程序,但难以从本文所用三个物种的早期发育密集时间过程获得。作为单独使用sc-RNA-seq数据的一步,作者试图识别在TOME中发育调控基因的核心启动子中富集的DNA序列基序。作者通过控制与每种细胞类型的出现相关的上调或下调相关的关键转录因子,进行了一系列分析,基本可以达到预期的目标。这些分析的一个局限性是,作者将对富集序列基序的搜索限制在上调或下调的关键基因的核心启动子上。但是随着跨越哺乳动物胚胎发生的单细胞、全基因组染色质可及性数据集的出现,这种分析可以扩展到增强子介导的调控。

小鼠、斑马鱼和青蛙胚胎发生的细胞轨迹的系统比较

为促进脊椎动物细胞类型的系统排列,利用公开的单细胞RNA-seq数据集将与TOME相同的策略应用于斑马鱼和青蛙的胚胎发生。对于斑马鱼,整合了两项使用不同技术的研究的数据,这些研究共包括15个发育阶段,从高阶段(hpf3.3)到早期咽部阶 (hpf24),基本上跨越外壁和分段(图4a)。所得到的图包含221个节点,每个节点分配了63个单元格类型注释中的一个,以及257条权重大于0.2的边(图4b)。对于青蛙,作者重新分析了一个跨越10个发育阶段的数据集,从S8到S22,跨越了原肠形成和神经形成(图4a)。所得到的图包含192个节点,每个节点分配了60个单元格类型注释中的一个,以及221条权重大于0.2的边(图4c)。此外作者还使用第二种策略进行了分析,对每一对物种的细胞类型的转录组进行了所有可能的两两比较,不包括胚胎外谱系。作为第三种策略,作者关注了与每个物种中每种细胞类型的出现相关的候选关键TF之间的重叠。

图4 斑马鱼和青蛙胚胎发生的细胞轨迹的重构

一些候选细胞类型同源物在第二种和第三种策略之间存在重叠(图5a)。总的来说,作者能够将77种胚胎小鼠细胞状态中的48种细胞类型,59种斑马鱼胚胎细胞状态中的52种和60种青蛙胚胎细胞状态中的44种识别出来。一些松散注释的细胞类型通过同源性得到了解决。例如,斑马鱼eomesa 和dlx1a 分化神经元分别与小鼠中间祖细胞和抑制性中间神经元同源。在某些情况下,作者观察到“三向”两两同源性和指定的调节因子(图5b)。例如,Gsc,Spemann组织者的典型TF,被提名为前原始条纹(小鼠)、背边缘退化(斑马鱼)和背边缘区(青蛙)的关键调控因子,这些细胞类型也被确定为彼此的同源物。其他“三种方式”指定的TF调节因子和相关细胞类型包括造血内皮的Sox7、耳板的Tbx2和表面外胚层的Gata3(图5b)。

图5 通过两种策略确定的三种物种(小鼠、斑马鱼、青蛙)之间的候选细胞类型同源物的结合

参考资料

Qiu, C., Cao, J., Martin, B.K. et al. Systematic reconstruction of cellular trajectories across mouse embryogenesis. Nat Genet 54, 328–341 (2022). https://doi.org/10.1038/s41588-022-01018-x

代码链接:

https://chengxiangqiu.github.io/tome/

0 人点赞