00 文献信息
英文标题:Optimal-Transport Analysis of Single-Cell Gene Expression Identifies Developmental Trajectories in Reprogramming
中文标题:对单细胞基因表达的最佳转运分析确定了重编程的发展轨迹
期刊:《Cell》
影响因子:38.637 发表时间:2019-01-31
研究领域:单细胞
DOI号:10.1016/j.cell.2019.01.006
01 概述
In Brief
Application of a new analytical approach to examine developmental trajectories of single cells offers insight into how paracrine interactions shape reprogramming.
研究人员对315000个单细胞(在小鼠成纤维细胞重编程为iPSC的过程中,每隔6~12小时收集一次样品,共持续了18天)进行大规模RNA测序并解析了测序结果。利用Waddington-OT将不同时间点的细胞类型和细胞分布进行关联,成功追溯了从成纤维细胞到iPSC重编程过程中细胞变化的轨迹,绘制了从小鼠胚胎成纤维细胞到iPSC重编程的“细胞地图”。最后,研究人员通过Waddington-OT预测,发现转录因子Obox6和细胞因子GDF9都能够增强产生iPSC的效率。
02 背景
Waddington introduced two metaphors:
- 1936:trains moving alongbranching railroad tracks1957:marbles rolling through adevelopmental landscape
由于bulk analysis不能解决两个问题:
- discovering cell classes in a population 可通过 single-cell RNA sequencing (scRNA-seq) 解决tracing the development of each class.
最优传输理论(Optimal Transport),也叫Monge-Kantorovich Problem。
作者通过Waddington-OT证明了一个conceptual framework:细胞在任何时候都是从基因表达空间的概率分布中提取的,而且每个细胞都有可能的起源和可能的命运的分布。
详细的背景介绍可见:时间序列单细胞转录组数据分析
03 主要方法&数据
主要实验
- Reprogramming assay
- Sample collection
- Single-cell RNA-seq
- Lentivirus vector construction and particle production
- Determination of paracrine effects of GDF9 on reprogramming
Single cell RNA-seq raw data:GSE122662
04 结果
1. Reconstruction of Probabilistic Trajectories by Optimal Transport
作者通过细胞在某一时间点的特定表达谱研究祖细胞与子细胞之间的关系。
作者将细胞的分化群体建模为 time-varying probability distribution (时变概率分布—随机过程)。通过在不同的时间点采样Pt,推断出随着时间演变的分化过程(图1A)。由于独立采样的,将时间点之间表达的联合分布,称为时间耦合(temporal coupling)。作者利用最优传输,计算连续时间点之间的耦合,然后通过组合每对连续中间时间点之间的传输映射来推断更长的时间间隔上的耦合。
作者根据“后代分布”和“母细胞分布”来定义轨迹。使用推断耦合来计算在任何其他时间的典型初代和后代的分布。通过计算每个时间点上细胞分布加权的平均表达水平来确定任何基因或基因签名沿着轨迹的表达。
为了识别调控轨迹的转化因子(TFs),作者建立由TFs模块和靶基因模块组成的全局调控模型,从早期TFs的表达水平预测晚期gene signature的表达水平(图1F)。
作者使用Waddington-OT的方法及公共软件包,对发展状况和轨迹进行探索性分析。
方法:
- 通过计算时间耦合并查找祖先、后代和轨迹,对一个时间过程中的scRNA-seq数据进行最优传输分析,
- 推导驱动时间动态的调节模型,
- 使用FLE在2D中可视化单元格
- 按类型、祖先、后代、轨迹、表达式等注释细胞。
2. A Dense scRNA-Seq Time Course of iPS Reprogramming
作者通过 a secondary reprogramming system 生成了iPSCs(图2A):
作者将重点放在第二个实验上(表S1),保留251,203个高质量的细胞,通过 downsampling 进行了深度测序分析。
3. Overview of the Developmental Landscape
作者确定了一些值得注意的特征,包括多潜能-、外表面-、滋养细胞-、神经细胞-和基质样细胞。使用Waddington-OT,作者确定了特征基因的轨迹。
4. The Model Is Predictive and Robust
由于目前追踪细胞谱系的实验方法不能描述细胞集合祖先的转录谱,作者开发了一种计算方法来验证该模型,并发现时间间隔越长,interpolation 的质量越低(图S1D)。
为了证明数据的可用性,作者下调细胞采样,并在每个时间点读取验证。
5. In Initial Stages of Reprogramming, Cells Progress toward Stromal or MET Fates
重编程初期,所有细胞都表现出细胞周期信号的快速增加和MEF身份的下降(图2E)。随着时间的推移,细胞要么是基质要么是MET身份(图3A-3C)。基质区(SR)的细胞表现出细胞外基质(ECM)重排、衰老、细胞周期抑制和分泌表型(SASP)的独特特征(图3D和3E)。MET区域的细胞增殖增加,成纤维细胞特征丧失(图3D和3F)。
在表达胚胎间叶组织和长期培养的MEF信号时(图S2A), SR不能简单地反映MEF逆转(图S2B)。特别是,新生儿肌肉和新生儿皮肤的特征在SR中丰富了20- 30倍。基质细胞比例在第10.5-11天达到高峰,然后在第18天下降(图2G)。这并不是因为细胞退出了SR(图S2C),而是因为细胞的低增殖和凋亡信号的表达。
在这两个轨迹上差异表达的基因中,有早期成功MET的标记,包括已知标记Fut9和新的候选基因Shisa8(第1.5天差异表达最大的基因)。Shisa8和Fut9在成功重编程的轨迹上都被强烈表达,而在其他谱系中表达较低。
调节分析确定TFs与两种轨迹相关。三个TFs (Dmrtc2、Zic3和Pou3f1)的表达均沿轨迹上升至MET区域。四种TFs (Id3、Nfix、Nfic和prrx1)在DOX去除后的基质细胞中表达较高。
6. iPSCs Emerge through a Tight Bottleneck from Cells in the MET Region
只有一小部分脱离MET区域的细胞有可能成为诱导多能干细胞。这些iPSC的祖细胞还没有完全获得多能性的特征,但正在迅速地朝着这个轨迹改变。
作者的研究表明:1%的iPSCs在2i和血清条件下都显示出2C特征。
通过沿诱导多能性干细胞的表达趋势对基因进行聚类,发现了多组调控多能性的激活基因和参与代谢变化和RNA加工的抑制基因(图S3B)。作者鉴定了24个完全重编程细胞的候选标记(包括Ooep、Fmr1nb、Lncenc1和Tcl1)。
颜色表示相对于第0天的折叠变化(白色)。每一行显示了单个基因的平均表达趋势,其中的平均值是根据祖先分布计算的。
调控分析确定了沿轨迹到iPSCs的TF活性序列。值得注意的是,Obox6和Sohlh2并没有表达在任何其他细胞命运的轨迹中,并且在生殖细胞的维持和存活中发挥作用,但之前并没有涉及到多能性。
最后,轨迹分析确定了X染色体重新激活的正确顺序:Xist下调,然后多能性相关蛋白被表达,最后X染色体被重新激活(图4D和4E)。
7. Development of Extra-Embryonic-like Cells during Reprogramming
正常发育时,胚胎外滋养细胞祖细胞(TPs)产生绒毛膜,绒毛膜形成迷路滋养细胞(LaTBs),胎盘外锥形成海绵状滋养细胞(SpTBs)亚型和滋养细胞巨细胞(TGCs),其中包括螺旋动脉滋养细胞巨细胞(SpATGCs)。
调控分析发现第10.5天的TFs可以预测滋养细胞的命运(图5B)。其他TFs可以预测特定亚型的命运。
8. RNA Expression Reveals Genomic Aberrations in Trophoblast-like and Stromal Cells
作者分析了scRNA-seq数据,以推断出基因表达相干增加或减少导致的大量拷贝数畸变。
基质细胞经常扩增含有细胞周期抑制剂scdkn2a、Cdkn2b和cdkn2c的区域,而常溶酶区包含Cdk13,促进细胞周期,Mapk9的缺失,促进细胞凋亡。这些基因组的改变可能反映和促进基质细胞的功能。
9. Neural-like Cells Also Emerge from the MET Region during Reprogramming in Serum
在正常发育过程中,神经上皮细胞失去了上皮细胞的特性,变成放射状胶质细胞(RGCs),然后形成星形胶质细胞、少突胶质细胞和神经元。作者使用小鼠大脑的scRNA-seq来获得这三种成熟细胞类型的标记,以及表达Id3、Gdf10或Neurog2的三种RGCs的标记。
大约70%的神经元样细胞至少表达这六种特征中的一种。Regulatory analysis 确定了TFs对神经命运的预测。
10. The Developmental Landscape Highlights Potential Paracrine Signals
作者研究了这些细胞同时重编码时,它们间的相互作用。作者定义了一个基于配体-受体对在细胞集合中同时表达的交互评分。
具体结果如下:
11. Experimental Validation Confirms that Transcription Factor Obox6 and Cytokine GDF9 Enhance Reprogramming
作者通过实验测试了一种TFs和一种旁分泌的相互作用,并通过分析预测其可能会促进重编程。
在多个独立实验中,GDF9以剂量依赖的方式显著提高了重编程效率,通过:(1)Oct4-GFP阳性菌落计数,(2)大块RNA-seq和(3)scRNA-seq测定,最高剂量平均增加4- 5倍。这些结果支持了Gdf9在重编程中的作用。
05 延伸版块
1.
单细胞转录组数据处理:
(1) 获取表达矩阵:
直接用官方工具CELLRANGER 过滤得到 65,781 cells and G = 16, 339 genes 的表达矩阵;
(2) 降维:
a)利用的是R包SEURAT的MeanVarPlot函数过滤掉细胞表达无变化的基因,剩下2076个基因;
b)利用R包 DESTINY,使用 diffusion component embedding进行降维处理;
c)分析了top100 diffusion components的,发现只有top20是显著的富集到 developmental processes ,所以作者只选取了top 20 diffusion components
(3) 可视化:
使用R语言的FNN包里面的 fast k-NN algorithm ,然后利用ForceAtlas2算法计算 force-directed layout on the k-NN graph
(4) 单细胞聚类:
使用了 Louvain-Jaccard community detection 算法,默认参数分成33类。
2.
单细胞轨迹推断方法分类:
类别1(33个工具):不适用于使用scRNA-seq的开发时间课程;
类别2(25种工具):适用,但不包含时间信息;
类别3(4工具):利用时间信息,但不模拟细胞生长速率随时间的变化;
类别4:Waddington-OT 结合时间信息和模拟细胞随时间增长的方法。
3.
force-directed layout embedding (FLE):一种可视化技术:
4.
Waddington-OT相关的理论:
① 时间耦合:
The temporal coupling specifies the mass transferred from one region of gene expression space to another over time.
② 最优传输原则:
We assume that the true coupling is well approximated by optimal transport couplings over short timescales. Intuitively,this says that the developmental process is proceeding in a locally linear fashion in the space of probability distributions
5.
文献研究展望:
①the framework currently assumes that a cell’s trajectory depends only on its current gene-expression levels.
②might be extended to incorporate intercellular interactions, by using optimal transport for interacting particles.
③various methods exist for obtaining lineage information about cells, based on the introduction of barcodes at discrete time points or continuously .
④method can be refined to analyze all time points simultaneously rather than just consecutive pairs.