同一细胞中转录组和染色质高通量测序联合分析

2020-03-30 14:40:59 浏览数 (1)

文献详解栏目

每个人的时间精力有限,必须优先阅读相关文献,开设这个栏目也是希望为大家推荐高质量的单细胞相关文献。如果大家对单细胞转录组感兴趣可以关注一下,哪怕每天只学一点点,积土成山,积水成渊。

当然一个人的力量终归是小的,我也希望汇聚一群人,形成一个场,这里头最重要的生产力不是单个人多聪明,多厉害,而是每个人相互作用,形成的那个氛围。

希望大家能有所收获!

文章信息

本期文章题目是:High-throughput sequencing of the transcriptome and chromatin accessibility in the same cell . 发表于2019年10月14日的Nature Biotechnology

这篇文章是在单细胞测序的基础上通过联合ATAC-seq发明了一种新的技术,从而达到在单细胞水平进行RNA-seq和ATAC-seq同时测序,从而使得因单细胞测序因为检测数量稀疏的峰值信号被发现,使得测序的结果更加的精准,并且能够揭示出因为单细胞测序而忽视的低丰度细胞内的ATAC-seq的情况。

前言

首先对于这个新的技术,我们先来了解一下ATAC-seq的技术原理 ,他的发展简史我们可以参考我的另一篇博文 https://blog.csdn.net/leianuo123/article/details/102767273 ,这篇文章介绍了染色质可接近性的几种方法,以及他们的利弊。 对于此种新的技术,研究者首先从三个大的方面进行构架这篇文章,

  • 第一点对于新技术的原理的介绍,
  • 第二点,对于新技术的质量的评估,
  • 第三点对于新技术的应用,

此篇文章完全符合这种行文路线,那么明确了这一点接下来的这个实验思路以及流程将会非常的明确。

  • 首先,针对当前的单细胞RNA-seq和ATAC-seq的分开进行,作者认为这之中存在一些问题。
  • 还有就是,这种表观遗传学的数据,其动态非常的强,也就是在不同的时间检测的数据差异也有很大的不同。那么基于此问题上,作者想到了将单细胞的RNA-seq和ATAC-seq的数据在单细胞中进行同时检测即新的SNARE-seq技术,此技术的原理以及示意图,如下:

具体过程

第一细胞核提取,纯物理的离心法,在此过程中保持细胞核的天然状态,然后通过Tn-5转座酶与细胞核进行孵育,此步是为ATAC-seq的过程做准备,在此之前细胞核尽量要处于天然的状态,由此才能够保证ATAC-seq测序的结果是准确的。在Tn-5酶与细胞核孵育后,进一步的进行后续的操作,即将单个的细胞核与Bacorade进行油珠包裹,这个Barcorde有一个特殊的处理,它不仅含有PloyA的接头,其还有PloyT的接头,这样的话,替他可以在细胞中同时捕获DNA和RNA,在随后对核的裂解进行扩增,以及随后的测序的工作。介绍完这个技术的工作原理后。

染色质的可接近性的评估

首先作者来研究,此种技术对染色质的可接近性的评估。作者将使用经典的GM12878淋巴细胞系进行测序质量评估,之所以选择这个细胞系的原因是,这个细胞系的ATAC-seq的数据非常的明显和经典,细胞SNARE的测序结果与传统的ATAC-seq以及omni-seq进行比对,发现SNARE-seq的数据结果和ATAC-seq的结果峰值以及峰的表达模式很相近。

除此之外,作者还将自己的测序结的片段长度进行分析,结果确实发现,这些片段最多的都集中在100到200bp之间。

除此之外,作者还将自己的测序结果与ATAC-seq结果以及omni-seq的结果进行了overlapping结果发现,SNARE-seq的测序结果能够检测到过更多的峰值,并且对于之前的ATAC-seq结果以及omni-seq的覆盖度也很高。

在确定了当前的技术的测序结果可靠的情况下,研究者对该技术的测序质量进行了另一方面的评估。

评估能否准确将细胞分类

作者研究这种新的测序技术是否能够准确的将细胞进行分类,为了达到此目的,作者将BJ,GM12878以及H1,K562这四种细胞系混合培养,并进行SNARE-seq测序。

首先对这两种同时测序的数据的量进行画小提琴图,发现染色质测序的量值通过质控达到2000左右,而RNA-seq的数据值UMI的值达到1000-2000之间。 接着,作者通过t-sne对两种测序的结果进行细胞聚类分析,能够明显的更具各类细胞的特点将4种细胞分出不同的簇了。如图

除此之外,作者还通过UMAP对不同的细胞以及不同的测序技术进行了验证,结果进一步的证明,这种测序技术能够很好的将四种细胞区分出来。

除了进行降维聚类,作者还对此次测序的结果与之前的技术进行相关性分析。结果如下。

除了与已有的技术进行相关性分析,研究者还将此技术中的ATAC-seq和RNA-seq的结果进行相关性分析,也发现这两者数据的相关性非常的 好。

除此之外,作者还通过SNARE-seq技术找到了在四种细胞里特异检测到的四种转录因子如下图,他们在四种细胞里的特异性如下:

SNARE-seq 分析

质量评估完了之后,作者将此技术运用到测新生小鼠的大脑皮质层的新生的过程以及成年小鼠的大脑皮层细胞的特点分析细胞种类的变化。

首先作者对新生小鼠的细胞进行SNARE-seq测序,然后完了后,对测序的样本进行质量评估,主要是样本的一致性评估,结果如下

然后又进行t-SNE进行降维聚类。结果如下

通过SNARE-seq联合转录组和染色质可接近性数据将新生的小鼠的大脑皮层的细胞分为19个类。并且每个类的细胞数目如下

我们可以观察到对于细胞数目最少的几类细胞,每个簇其数目只达到37个。

除此之外,研究者还分别将只通过RNA-seq标记的SNARE-seq的数据和只通过独立的SNARE-seq联合的染色质可接近性的数据结果进行聚类还有就是只是SNARE-seq的-ATAC-seq的数据进行t-SNE聚类,其结果如下。

可以发现第二种方法能够很好的区分19种细胞。

然后作者对几种技术测序的结果在基因组上进行位置匹配。结果如下。

可以发现,SNARE-seq测序的结果有37%的匹配到了外显子上,42%的匹配到内含子上,表明了新生转录本的存在,SNARE-seq和其他的测序的数据相似性极高,另外,染色质可接近性数据有更多的映射到基因间区域转录起始位点和外显子的覆盖率也相对较高,这些提示在染色质可接近数据可以提示在基因组上非编码区存在启动子和增强子序列。

接着作者将自己测序的结果与公共测序数据库进行相关性分析结果如下。

然后也对自身的数据进行相关性分析。

还将不同簇的基因的marker的基因进行热图聚类分析,结果发现,这些marker基因子在大多数簇里能够特异性的表达。某些基因如Cntn2簇的marker基因在其他簇里也能够表达。

对于不同簇的marker基因启动子可接近性分析,在低丰度细胞数目较低的簇里Mic和OPC细胞里,也能检测到特异基因的启动子的峰值。这个地方作者只进行了描述,但是并没有拿之前的数据进行对比,有点疑惑。

最后,研究者对新生小鼠的大脑皮层的不同簇的差异基因进行时间轨迹分析,对4类典型的在大脑皮层发育的不同时期的细胞簇呈现经典的变化模式,早期的细胞簇IP-Hmgn2随着大脑皮层的发育,呈退出型变化,而中期的细胞簇IP-Eomes在发育中期出现,晚期的细胞簇,Ex-L2/3数目逐渐增多。,而他们的启动子的可接近性也呈相应的变化趋势。

部分转录因子,如在维持神经前体细胞干性基因的转录因子,SOx6和Gpm6b呈降低的表达趋势。而参与细胞RNA 剪接的蛋白质结合RNA的表达呈先上升的趋势。

以上的数据均是在新生的小鼠的大脑皮层测序得到的,最后,研究者在成年的小鼠大脑皮层进行同样的测序,进行t-sne和相关性分析,结果如下。

结语

最后,这篇文的优势是在单细胞中将RNA-seq的数据和ATAC-seq的数据进行同时联合分析,能够更好更真实的反应细胞内转录及其调控的状态。

0 人点赞