2015年以来,10X Genomics、Drop-seq、Micro-well、Split-seq等技术的出现,彻底降低了单细胞测序的成本门槛。
自此,单细胞测序技术被广泛应用于基础科研和临床研究。单细胞在许多领域都占有一席之地,对于癌症早期的诊断、追踪以及个体化治疗具有重要意义。
一.基本原理 单细胞测序首先不是仅仅对一个细胞进行测序,而是说该项技术能对单一细胞的基因组或转录组进行测序,可以理解为单细胞水平上的测序。 在介绍基本原理之前先让我们尝试着回答一下:为什么要进行单细胞测序?换个姿势来问就是,单细胞测序技术能解决什么传统方法解决不了的问题? 世界上没有两片相同的叶子,对于多细胞生物来说细胞与细胞之间是存在差异的,很多时候是基因组、转录组上的失之毫厘,功能上的差之千里。 比如在肿瘤组织中,肿块中心的细胞与肿块周围的细胞,原发灶与转移灶的细胞,其基因组与转录组等遗传信息是存在差异的,这也就导致不同肿瘤细胞表现出免疫特性、生长速度、侵袭能力等表型方面的差异,最终导致对不同抗肿瘤药物的敏感性不同或放疗敏感性的差异。 那么我们怎样来研究这种遗传信息的异质性呢?传统的测序方法是在多细胞水平上进行的,这种大家一起“吃大锅饭”的形式,使其丢失了异质性的信息,而单细胞测序可以完美的解决这个问题。给大家更形象的举个例子:
Western blot 检测
这三种样本虽然存在这么大的差异,但是通过western blot检测的时候我们得出的结论是:该基因在不同组织中的表达基本一致。上图所展示的异质性信息就被完全的忽略掉了。
和western blot相似的是,传统测序方法所展示的信息也是在多细胞水平上的平均信息,而单细胞水平上的测序则完全可以反应同一个细胞群里不同细胞的基因组和转录组状况。
单细胞测序技术的出现,使得从混杂的样品中筛选出异质性信息的难题得以解决,该技术的成熟使用也必将引领生命科学研究向前迈进一大步。
那么单细胞测序又是如何实现的呢?我们以单细胞RNA-seq作为例子,简单的来介绍一下该技术得以实现的原理:
1、将单细胞分离出来,单独构建测序文库,并进行测序。这种思路通量极低而且成本极高,如前文所说烧掉很多钱就测数十个细胞,而往往这数十个细胞还不足以反应真实的科学问题。所以我们着重介绍第二种方案。
2、基于标签(barcode)的单细胞识别。它的核心思想是:在对每个细胞的mRNA测序前做逆转录时,为其加上独一无二的标签序列。这样即便是混合起来测序,我们也可以把携带相同标签序列(barcode)的RNA片段视为来自同一个细胞。通过这种策略,我们可以通过一次建库,测得上万个单细胞的信息(如下图所示)。
单细胞测序带给大家哪些福利?就拿大家比较关注的single cell RNA-seq来说吧:
1、在传统的研究方法中,我们往往根据标记基因和细胞形态来区分不同细胞类型,而这种方法无可厚非的存在很多争议。而单细胞测序技术可以更精准无偏倚的来对细胞进行分群。尤其是对免疫学,肿瘤学,遗传学的研究将会带来巨大影响。
2、分析稀有的细胞,特别是特定时空环境下的细胞。比如从环境中取样的微生物等。
3、临床上,对体外受精胚胎进行植入前的筛查。
4、基于循环肿瘤细胞(circulating tumor cells)进行癌症诊断,大力推进新型的循环肿瘤细胞检测技术。特别是恶性肿瘤患者治疗前后的循环肿瘤细胞类型和数量的变化具有重要的预后提示价值。
5、已经通过传统的测序方法进行大规模测序,希望以此挖掘数据冲击重量级期刊的小伙伴们请注意,单细胞测序在高分期刊的发表已成井喷之势,几年之后技术必将更加成熟
二.要实现单细胞转录组测序,需要解决2个难题:
1.PCR偏差:单个细胞含有约10pg total RNA,而约80%以上信息为rRNA,从单细胞RNA到文库意味着核酸的扩增量要达到百万倍以上。而在这个高的扩增量不引入PCR偏差一直是个较大的问题。
我们可以想一下,如果两个样本基因表达量是相同的,但扩增效率A是99%,B是97%,在扩增30个循环后,两者在扩增后的表达就有了1.84(0.99^30/0.97^30)倍的差异。而当我们分析差异基因的时候如果选1.5倍作为差异基因的标准,那么本来没有差异的基因也会出现差异。
2.去除rRNA:rRNA(核糖体RNA)在total RNA占比一般在80%以上,如果不加区分地进行逆转录,再扩增、建库很可能测序得到的绝大部分序列都是rRNA的序列,但是一般情况下,如果你更关心mRNA等编码基因的序列,rRNA序列不能给我们带来有效的信息,可以说它是无用的。
下面分别介绍单细胞转录组的三个扩增技术:
- SMART扩增技术:
SMART扩增技术最核心的技术,就是设计了2个特殊的引物。再配合用MMLV逆转录酶进行逆转录。
特殊引物1由中间PolyT序列加上一段通用序列及3’末端两个简并碱基构成,但在PolyT的3’端倒数第二个碱基是A、C、G而非T的简并碱基,而倒数第一个为简并碱基,这样做的好处是让它正好结合在mRNA的3’端连到Poly(A)尾巴的这个连接处,而不会结合到mRNA的别的地方。这样就保证了逆转录的起始位置正好是mRNA的3’端的序列终止位置。MMLV逆转录酶,这个酶有个特点,就是它在转录到mRNA的5’端末端的时侯,会在新合成的cDNA的3’末端,多加出几个C碱基来。
特殊引物2由一段通用序列及它的3’端是3个非脱氧的G碱基构成,也就是核糖核酸的、RNA的G碱基,而不是DNA的G碱基,这个引物可以与刚才新合成的cDNA的3’端的那几个C碱基发生互补杂交,然后引导这个MMLV酶再次发挥聚合作用,以刚才那条新合成的cDNA为模板,复制的结果,就是得到双链的cDNA。
这个双链cDNA,两端都已经接好了我们人工设计的PCR引物序列,然后,就加入常规的PCR引物,进行常规的PCR扩增,常规PCR扩增,得到大量DNA。然后可以象常规的DNA建库那样,超声打断、建库、上机测序了。
通过SMART技术得到的主要是mRNA信息,LncRNA信息大部分会丢失,SMART技术对于RNA的质量要求较高,如果RNA出现降解会导致mRNA 5’端信息丢失。通用引物技术能保证扩增的均一性,但PCR引入的突变不能够分析出来。
- 10×genomics技术:
首先再凝胶微珠上种上特定的DNA片段,DNA片段由三部分组成:Barcode、UMI、PolyT组成。Barcode是16个碱基的长度。一共有400万种Barcode,一个微珠是对应于一种Barcode,通过这400万种Barcode,可以把凝胶微珠给区分开。UMI是一段随机序列,也就是说每一个DNA分子,都有自己的UMI序列。10个碱基长的UMI,有100万种序列的变化(4^10 = 1,048,576),UMI的作用是为了区分哪些哪些reads是来自于一个原始cDNA分子,区分基因片段重复还是duplication及区分是真实的SNP位点还是PCR产生的突变。通过10×genomics仪器将单个细胞与单个凝胶微珠通过油相混在一起,形成油包水的小微滴,接下来把细胞膜破掉,让细胞当中的mRNA游离出来。游离出来的mRNA与小液滴中的水相混合,也就是和逆转录酶、结合在凝胶微珠上的核酸引物、以及dNTP底物相接触。
接着,发生逆转录反应。mRNA与凝胶微珠上带标签的DNA分子相结合,在逆转录酶的作用下,逆转录出cDNA来。把这个乳浊液当中所有的水相抽出来,也就是把所有带了标签的cDNA分子都抽出来,再把这些cDNA分子都加上接头,经过PCR扩增,做成illumina的测序文库,放到Illumina的测序仪上进行测序。测序完成之后,进行数据分析。
10×genomics技术一次可以同时得到大量大细胞数据,但只能得到mRNA信息,LncRNA大部分信息丢失,UMI技术能很好去除认为分析引入duplication及PCR引入SNP位点。同样对RNA质量要求高,降解同样会引起5’端信息丢失。
- Anydeplete 技术
Anydeplete技术首先通过随机引物进行一链合成,一链合成引入核苷酸类似物,用于酶切打断,二链合成同样引入核苷酸类似物用于保证链特异性。然后两端加上接头,接头一条链也带有核苷酸类似物,用于酶切降解。当形成单链文库后,设计特异性引物与rRNA形成文库结合,一轮退火延伸,rRNA文库形成双链结构。Reverse adaptor上带有特异的酶切位点,当形成双链结构酶切位点被识别,切去接头,这样rRNA形成的文库不带有完整的接头,而其他文库带有完整接头,通过PCR扩增富积既能得到想要的信息,包含mRNA及LncRNA信息。同样Anydeplete技术与10×genomics技术一样,包含分子标签,可分析duplication及PCR产生突变位点。
Anydeplete技术能够用于降解性样本,保证5’端及3’端信息的完整,能同时得到mRNA及LncRNA信息,如果只希望得到mRNA信息,Anydeplete技术则会引起一部分数据浪费。
参考:
1.https://www.sohu.com/a/332085879_811044
2.https://mp.weixin.qq.com/s/auGUTt_d4PL9nCy5LUtaCg