#摘要
现在分子生物学技术依赖于大量的高质量gDNA。但是很多医学、生物样本由于原始样本量不足(如PGD样本、微小残留肿瘤组织)或质量不佳(如FFPE 样本、法医学样本)等原因,无法进行这些技术实验。
因此,为了可以应用目前最先进分子技术,必须获得足够的样本,因此需要对gDNA进行扩增。本章总结了从25年前开始到现在的所有全基因组扩增的技术(whole-genome amplification)。我们将详细说明该技术的应用以及各种WGA技术的优势和劣势。
- 关键词: Whole-genome amplification(全基因组扩增), PCR-based amplification(基于PCR技术扩增), Ligation-mediated amplification(连接介导的扩增), Multiple displacement amplification (多重置换扩增)
1 对极少起始量gDNA进行研究的挑战
在分子生物学领域,高通量方法来需要大量的起始gDNA材料进行实验。然而,由于一些原因,如样本来源问题、样本本身的特征以及后续分析的需求,DNA量无法满足要求。在一些实际应用中,一些样本如产前遗传诊断(prenatal genetic diagnostics ,PDG )或微小残留肿瘤( minimal residual cancer)样本,都是极其有限的,经常只有一个细胞,只能提取出7pg的gDNA。在另外情况下,如法医学、古生物学或者处理FFPE样本,样本的经历或保存条件会损害DNA质量,导致可用DNA的量降低。上述两种情况,直接分析样本gDNA从技术上来说是很具有挑战性的,且得到的基因标记(genetic markers )也是有限的。
若想通过现在分子学技术综合性分析以上样本,必须先对gDNA进行扩增。gDNA 扩增必须满足以下要求:
- ①保证足够高的基因组覆盖度,及尽可能将人类基因的 3 × 10^9^核苷酸尽可能全部扩增 ;
- ②保证原始序列的构成不变,要避免基因拷贝数的缺失(包括父源和母源),同时也不可以人工引物突变;
- ③CNV突变(拷贝数变异,copy number variation)中,拷贝数应不变,及全基因组的所有区域都应均一扩增。
在过去的几十年,开发出了若干种全基因组扩增技术。这些技术大多数依赖于PCR技术(一种用热稳定的DNA聚合酶和短序列引物对DNA进行指数级别的扩增技术)。在一开始,PCR应用于扩增特定的DNA位点,由于酶活性问题,产物长度有限。如,常常用于PCR扩增的Taq DNA聚合酶,其产物长度大约1000bp。 由于以上的限制性,人们总结出了以下全基因扩增的原则:①增加引物结合的发生;②在扩增前降低基因组的复杂性(将基因组片段化);③提高酶活。
2 基于PCR技术对全基因组扩增的初次尝试
第一次扩增基因组使用了一种非变性引物(non-degenerated primers),这些引物的结合位点是全基因组中的重复Alu motifs部分中最保守的区域。该技术称为“分散重复序列PCR( interspersed repetitive sequence,IRS PCR)”,可直接扩增与Alu 原件相毗邻的片段。Alu 原件在人类基因分布非常广泛但不均匀,这就导致了富含Alu原件的区域更容易被扩增,造成扩增偏好性。此外,Alu序列在其他物种中分布可能并不广泛(如,老鼠),这造成该技术在动物模型中进行单细胞扩增的应用受到限制。ISR PCR主要应用于混合DNA源(如人类/啮齿动物体细胞杂交)或显微切割的人类染色质样本中人类基因组特定区域的探针文库(probe libraries)的构建。
解决通过引物结合方式确保扩增均一性的方式就是使用部分或全部随机的随机序列引物。“简并核苷酸引物扩增(Degenerate oligonucleotide primed, DOP PCR)”方法就是基于这种假设:随机引物可以均一地结合在全基因组上。DOP PCR 引物中间有6个简并引物,两端序列是固定的(6-M: 5′ AAGTCGCGGCCGCNNNNNNATG 3′ or 6-MW: 5′ CGACTCGAGNNNNNNATGTGG 3′),这样,引物内部序列足够多,以确保有效扩增。为了提高引物的结合效率,第一轮循环设置温度应低于简并退火温度(30℃),后续的25-35个循环退火温度逐步升高(62℃)。从基因组方面看来,DOP-PCR技术尽管优于IRS-PCR,但PCR产物仍然较短,在许多应用领域无法适用。后来引入了一种高保真聚合酶(Pwo),消除了这个短板;但当 input DNA量过低(< 1ng)时,会导致 locus 的缺失率升高。DOP-PCR还会导致扩增偏好性,有个别loci 拷贝数改变了3个数量级。尽管诸多短板,DOP-PCR 还是在CGH( metaphase comparative genomic hybridization)或aCGH领域成功应用于FFPE样本(各种肿瘤)中,进行基因异质性研究。此外,DOP-PCR产物还可通过metaphase CGH进行单细胞水平的拷贝数变异评估。该方法在PGD 领域具有重要意义,它可以在40Mb 分辨率上检测到非整倍体(aneuploidies )和部分非整倍体。尽管在DOP-PCR流程完成后可基于aCGH平台进行单细胞水平分析,但检测精度无法提高,所以目前DOP-PCR技术在WGA领域并不常见。
相较于 DOP-PCR,“引物延伸预扩增技术(primer extension pre-amplification ,PET PCR)”技术使用了 15bp 随机引物+长退火延伸循环(long annealing and elongation cycles)技术。如果基于PCR方法分析某一特定 loci,该方法可以提供足够的模板。首次发表时,在所有分析 loci 中,该技术为 78% loci提供了不低于 30 个拷贝的模板。在单细胞水平上,分析单个loci是可行的,即通过巢式 PCR 分析 DMD 基因、RFLP 分析coagulation factor VIII (F8) 基因、SSCP 分析 CFTR 基因。相较于其他 WGA 方法,该方法的引物退火效率高低不一、且 DNA 产量也较低。最重要的是,相较于 metaphase CGH 分析来说,单细胞 PEP-PCR 产物无论是准确性,还是可靠性,都不满足要求。
为了提高 WGA 效率,人们对PEP-PCR 的操作流程进行了优化:加入了保真性更高的 Pwo 聚合酶、调整了循环条件(优化后的PEP,即iPEP)。相较于 PEP-和 DOP-PCR 技术,iPEP-PCR 在单细胞全基因组扩增的成功率更高(iPEP-PCR :40%, PEP:15%,DOP-PCR:3%),并且可以从 1-5 个侵染性癌细胞(disseminated cancer cells)中鉴定出了 KRAS 基因型,还可以从30 个 FFPE 显微切割来源的细胞中鉴定出该基因型。但是该方法很容易引物等位基因偏差(strong allele representation bias),a preferential amplification was evident in 40 % of cells generated initially with pools of five freshly isolated cells 。其中,ADO 率高达 68%,甚至比单细胞全基因组扩增检测到的偏好性还高,这表明,iPEP-PCR 并不适用于单细胞全基因组分析 。
另外一种基于 PCR 方法的全基因组扩增方法不需要像前面的方法一样,必须知道确切序列,这种方法就是标签随机引物PCR(tagged random primer PCR ,T-PCR)。T-PCR 基于两步 PCR 方法,引物长度 9-15bp,其中 3'端为随机序列,确保可以随机与目的基因结合;5'端是一个连续的标签序列。这样,标签序列可以在第一轮扩增后将所有的扩增子进行混合。在后续步骤中,对PCR 产物进行纯化,去除多余的引物,再通过一个与标签序列互补的引物对目标 DNA进行扩增。但由于扩增偏好性与扩增效率低,T-PCR 方法并不适用于单细胞基因组分析。尽管如此,标签随机引物这个概念在后续的 WGA方法中得到了应用。
3 连接介导的 PCR 方法在临床样本中分析的应用
上文提到的随机引物问题在“连接介导PCR(ligation-mediated,LM PCR)”技术引入后得到了部分解决。在LM PCR 方法中,将gDNA进行片段化,转化成平均长度固定的可扩增的结构。将接头寡核苷酸序列连接到片段DNA的末端后,就可以用非随机引物序列对其进行扩增。历史性第一次,LM-PCR方法对染色质免疫共沉淀技术获得的基因组进行扩增,称为“全基因组扩增(whole-genome PCR)”。人们对其进行改进后,可以对单个显微切割的吉姆萨染色后的染色体(Giemsa chromosome)以及流式分离出的单个染色质进行扩增。尽管均无法在单细胞水平上扩增出整个全基因组,但他们证明LM-PCR 是可以作为一种WGA的方法的。值得注意的是,上述涉及的LM-PCR方法使用了限制性内切酶,限制酶相较于之前提到的方法,可以确保引物结合分布是确定性。
最近的LM-PCR 方法通过超声打断或酶处理方法获得随机片段,即 Rubicon Genomics 提出的Omniplex™/GenomePlex™ technology 技术。该方法对原始材料的质量要求降低,在FFPE 样本中,DNA完成片段化和fill-in 反应后,PCR adaptors 可以均一地连接到部分降解的模板中。而且,该方法还使用了非变性引物,保证了持续不断的引物高结合效率,使得产物量极高。然而,这种引物结合模式仍然会出现错误,且在PEP 和DOP-PCR 方法中无法扩增。
到此为止,基于LM-PCR的GenomePlex 技术已经应用于多种领域,可以对5ng FFPE DNA、2000个aCGH 显微切割的细胞进行分析。此外,GenomePlex还成功地应用于:显微切割单个肿瘤细胞、富集后的循环肿瘤细胞以及单个人类胚叶细胞(blastomeres)分析。但由于技术性导致了高背景,需要开发出特定的算法,去分析单细胞aCGH 数据。现在,GenomePlex更常见于对流式分选出的单细胞核进行低覆盖度高通量测序。由于可以检测CNV,该方法可以对个体的肿瘤样本进行肿瘤细胞的群体结构分析和肿瘤克隆进化分析。大量的平行测序亦可对特定与肿瘤相关基因进行测序,如使用单细胞GenomePlex全基因组扩增产品对结直肠癌循环肿瘤进行分析,发现了同一病人中原发性肿瘤(primary tumor)、转移和相关肿瘤细胞之间的突变谱(mutation spectrum)的差异(discrepancies)。
Klein和同事利用LM-PCR 技术开发出了另外一种具有重要意义的WGS技术:“单细胞比较基因组杂交(single-cell ccomparative genomic hybridization,SCOMP)”。该方法使用限制性内切酶Msel进行DNA片段化,这种酶作用位点是4碱基,平均切割长度为126bp(基于人类基因组hg19数据),而这个长度非常适用于后续的PCR扩增。但该方法仍有缺陷:对于Msel 酶切位点分布少的部分不适用。酶切反应之后,将PCR-adapter序列连接片段化产物上,确保WGA产物高覆盖度。此外,SCMP使用的PCR adptor降低了引物的多聚化(multimerization)个与样本基因的错配,提高了PCR的效率。SCOMP 这种独一无二的设计对后续实验也大有裨益,原始样本对于文库的覆盖度和复杂度对后续分析至关重要(如,genotyping、targetd sequence analyses),而这在临床应用中对于诊断是非常重要的。
SCOMP技术在单细胞水平上对显微切割细胞和循环肿瘤细胞上亦可扩增成功,使得许多特定基因座相关分析(locusspecific analyses)成为可能,这包括直接Sanger测序、RFLP测序和STR分析。在许多研究中,通过SOPMP技术对mCGH单细胞文库进行单个肿瘤细胞拷贝数变异(copy number alterations)分析。SCOMP技术还可以助力mCHG检测单个人类胚叶细胞,可以检测到胚胎异位(translocation)和镶嵌(mosaicism)突变。最近,SCOMP 产物提供了高质量的数据,甚至可以在53kb分辨率基础上检测CNA,这样就可以基于BAC clone 和寡核苷酸 ACGH平台进行分析。SCOMP 技术也可应用于FFPE样本中,无论在mCGH和 array-base CGH方法中,都提供了高质量数据。以上研究都说明SCOMP技术在准确性和拷贝数变异无偏好性都优于DOP-PCR技。这种独特的设计方法在临床样本(desseminated 肿瘤细胞、FFPE样本)中都适用,因此该方法的商业化试剂盒 Ampli1™ WGA kit (Silicon Biosystems SpA, Bologna, Italy)已经面世。
4 基于MDA 的全基因组扩增具有很强的持续扩增能力
链置换扩增(strand displacement amplification,SDA)/多重链置换扩增(multiple displacement amplification,MDA)技术原理是滚换复制(rolling circle amplification),滚换复制一种自然发生的复制机制,常常出现在λ和其他噬菌体中。该技术一开始应用于环状DNA扩增,后来也出现在单细胞全基因组扩增中。MDA使用的高活性酶Phi29或Bst DNA合成酶具有校正活性(proofreading)。大体上,抗外切活性(exonuclease-resistant)的随机六聚体(hexamers)结合到变性的DNA上,进行等温扩增(iaothermal amplification)。酶具有很强的链置换反应活性,其生成的片段可以成为下次扩增引物结合模板,这样就形成了一套超级扩增分支网络,获得了多重重叠的模板拷贝。Phi29 DNA聚合酶活性超高,得到的扩增子的片段也较大(>10kb),有利于提高单细胞全基因组覆盖度。但需要注意的是,MDA方法也会导致严重的文库偏好性,而且会产生嵌合DNA重排(chimeric DNA rearrangements),这会导致严重的等位体缺失率(rate of allelic dropout, ADO)和偏好性扩增(preferential amplification , PA),两者都会影响高度多态性序列(highly polymorphic sequences),这些影响对于低DNA起始量尤其是不完整的DNA模板更加明显。MDA方法不适用于临床样本(如CTC)等,因为固定、运输等处理会造成高分子量的DNA严重降解。对于低起始量和降解样本,基于PCR方法的全基因组扩增方法优于MDA扩增。
尽管MDA有诸多问题,但应用于许多单细胞DNA方面的研究,如STR 基因型分析、CHG或aCHG拷贝数变异分析以及全外显子(WES)和全基因组(WGS)测序。此外,MDA方法扩增产物总量多,可以对单细胞样本进行多种后续分析。MDA方法易上手,容易以小片段DNA为模板生成大量的基因组DNA,因此该技术已经商业化( Qiagen REPLI-g ,GE Healthcare enomiPhi ),广泛应用于小起始量样本扩增并长期保存方法中,以便进行后续研究。
5 MDA与PCR 相结合的全基因组扩增方法
Rubicon Genomics developed PicoPlex™公司尝试了将MDA和PCR两种方法进行取长补短,开发出了第一款结合了两种方法的技术。除 Rubicon Genomics手中的专利外,NEB、BlueGnome 和Perkin Elmer都在出售WGA技术。
在PicoPlex 全基因组扩增方法中,gDNA首先通过一套非自身互补(non-self complementary)的引物进行MDA扩增。这套引物被称为self-inert引物,用的碱基对不参与Watson-Crick碱基配对原则,配对模式为A-C,A-G,T-C,T-G。通过这种干预,排除引物二聚体的形成,对扩增效率具有强烈的积极影响。self-insert 引物由2部分组成:与gDNA结合的3'端变性序列(degenerated sequence)和5'端的固定序列。在DMA扩增步骤的开始,固定序列会合并到每个扩增子的末端。第二步扩增,这些分子通self-inert 引物的固定端进行PCR扩增,这样就获得了全基因组的高效扩增产物。但这种不稳定的引物结合模式会造成前面提到的后果。
迄今为止,PicoPlex 的全基因组扩增技术主要应用于胚胎移植诊断领域。在该领域,PicoPlex 的单个胚叶细胞的全基因组扩增产物通过aCGH方法检测CNA突变并选择整倍体胚胎进行后续胚胎移植。相较于于之前试用的扫描方法,及FISH或者形态学检查(morphological),该方法可以提高女性体外受精的移植效率和受孕几率。最近,单细胞PicoPlex WGA产品与客户定制的aCGH方法相结合,可以检测到1.2M分辨率的拷贝数变异。两项研究也表明PicoPlex WGA 在NGS 方面的应用可以进行由流式获得的单个人类染色体的低分辨率测序。此外,该方法还可以在单细胞水平上对乳腺癌细胞和胚叶细胞进行全基因组水平测序分析,并且在单细胞水平上检测拷贝数不变情况下的DNA重排(copy-balanced DNA rearrangement),这证明该方法在拷贝数检测的精确性和单细胞全基因组的覆盖度方面表现均优于MDA方法。
基于相似的思路,Zong 及其同事开发出一种方法,称为“多重退火与环状扩增方法(multiple annealing and looping-based amplification cycle,MALBAC)”。与PicoPlex类似,MALBAC 也包括两个阶段:线性MDA预扩增和PCR扩增。不同的是,MALBAC预扩增阶段包括多重“退火-延伸-变性-环化(annealing-extension-denaturation-looping)”步骤,这样的单细胞基因组扩增产物复杂性会优于单纯使用MDA方法。借助于在预扩增阶段高的退火温度,引物可以更高效的高GC 的DNA部分并形成二级结构。一项研究表明,MALBAC尽管未解决随机引物的问题,但对单细胞全基因组覆盖度达到了最高(93%),这就使得MALBAC方法对于后续的全基因组分析具有巨大优势。
到目前为止,MALBAC方法已经应用于单个精细胞减数重排情况、单个卵母细胞和极体的研究。这些研究表明,MALBAC可以在胚胎移植前的基因诊断同时检测导非整倍体和单碱基突变。最近的一项针对肺癌病人的CTC细胞的研究,使用CellSearch® detection和MALBAC 方法,进行了WES和WGS测序,检测了单细胞全基因组。尽管可能发现拷贝数变异和序列突变、严重度等位基因缺失,这就对肿瘤病人的CTC来源的检测方法提出质疑。
6 结论
如上文所示,目前发表和商业化的检测单细胞全基因组方法越来越多,这表明大家对研究细胞异质性的兴趣越来越浓厚。将来,单个细胞遗传基因组突变及其功能状态的联系肯定会提高我们对克隆进化和细胞适应(cellular)的了解。 Christoph Klein 等在单个细胞水平上同时检测全基因组和转录组分析,这有可能完成上述目标。该方法或者的结果与单个细胞表型(multicolor immunostaining)的相关性会为我们更高层次地理解细胞异质性及其生物和医学意义。