一、illumina 测序关键词
关键字:通量大 价格低 读长短 速度慢 应用广 准确性高 双末端 有偏向性
illumina 测序最大的就是通量大,正是由于通量大,才可以做大价格低。由于其通量大且价格低,可以满足巨大部分测序的需要,因此,正式开启了高通量测序的时代。Illumina 测序有着非常广泛的应用,最早应用于基因组的组装,还可以用于变异检测,RNAseq,单细胞测序,产前筛查,肿瘤检测等。
但是 illumina 测序致命的缺陷就是读长短,从最开始的 35bp,逐渐提高到 75bp,90bp,到现在最长的 2x300bp。但依然比较短。读长短无法处理重复序列的问题,这给基因组组装,大片段变异检测,全场转录组研究带来缺陷。Illumina 的技术特点限制了其读长,很难在读长上继续提高。
illumina 主要产品信息
二、AGCUT物种碱基
三、DNA信号放大与识别
1、光信号
2、电信号
3、溶液PH值变化
四、为碱基加上荧光基团
五、illumina测序通过加荧光基团识别碱基
1、无法继续反应
2、反应中的荧光干扰信号捕获
六、illumina测序技术的优势
illumina 测序主要包括三大技术:可逆阻断终止技术,边合成边测序以及双末端测序。测序
主要分成三个步骤,分别是建库,cluster 以及测序。
1、可逆阻断终止技术
2、边合成边测序
3、双末端测序
6.1 建库
首先来介绍一下文库,所谓文库,就是 DNA 片段的一个集合。将测序片段打断之后就构成了一个 DNA 文库。简单来说就是把一堆乱糟糟的 DNA 分子用超声波打断成一定长度范围的小片段。目前除了一些特殊的需求之外,基本都是打断为 300bp-800bp 长的序列片段,并在这些小片段的两端添加上不同的接头,构建出单链 DNA 文库,以备测序之用;
我们前面介绍过,不能直接将提取出来的直接加到测序仪里面直接测序,而是要对这些 DNA进行一些处理,或者也可以当成是格式化。让他们能够满足测序仪所要求的格式才行。在DNA 检测合格之后就可以开始这种格式化的操作了。
建库首先第一步是对 DNA 样品进行随机打断。这个时候的 DNA 是一些长的片段,比如是一些 100-300K 的长片段,将这些长片段进行随机打断。DNA 打断有多种方法,可以机械打断,超声波打断,酶解法打断等,这里面采用超声波打断。可以设定打断的长度,比如我设定打断的长度为 500bp,那么最终这些长片段就断成很多 500bp 的短片段,这个集合就是500bp 的文库。也可以设置其他长度,例如常见的有 170bp 文库,350bp 文库,500、800、2k,5k,6k 甚至更长的 10K,20K 等,一般 1000bp 以下,称为小片段文库,否则是大片段文库。
这里面注意,我们说 500bp 文库,这个 500 只是一个峰值。也就是里面大部分的片段在 500bp附近,并不是每条片段都刚好是 500bp,可能有 300,的,也可能有 800 的。在打断之后会有一个电泳的过程,将在一定范围内的回收。如果是 500bp 文库,可以回收 300-800bp 长度的片段。这个文库大小特别重要,它也叫做插入片段长度,insert_size。在后面序列拼接,短序列比对的过程中会大量用到这个值。那么回收完一个合格的 DNA 文库之后,接下来还需要进行很多操作。
凝胶电泳筛选文库大小
首先是给序列 3’端加一个 A 碱基,在加了 A 碱基之后,原来的平末端就变成了粘性末端,这样更容易链接后面的引物和接头等。加完 A 碱基之后还需要加测序引物。然后是 index标签。什么是 index 标签呢,它是一个 6-8bp 的一个片段,用来区分不同的测序物种。因为现在的高通量测序,一次产出数据都特别大,比如一条 lane 能够产出 30G 数据,而测序一个细菌基因组可能 1G 数据就够了,所以,一次测序可以就不同物种的 DNA 混合起来测序,无论是动物、植物,还是微生物等都加到测序芯片上测序,所以,就需要给不同的样品 DNA加上不同的 index 标签,用于后续数据拆分。
加完 index,我们还需要加 adapter 接头。adpater 接头分为 P7 接头和 P5 接头,分别加在序列的两端。这个 P7 和 P5 接头与测序芯片的上的接头刚好互补配对。经过以上的处理,就可以加样品到测序芯片上了。
6.2 flowcell 芯片
flowcell 是用于吸附流动 DNA 片段的槽道,也是核心的测序反应容器——所有的测序过程就发生在这里。当文库建好后,这些文库中的 DNA 在通过flowcell 的时候会随机附着在 flowcell表面的槽道(称为 lane)上。
illumina 测序 flowcell 实物图
一张 flowcell 里面有八条通道,称为八条 lane。每条 lane 里,上下各有一个面。里面做了化学修饰,上面种了非常多的引物,P7 和 P5 引物,刚好与文库上的接头结合。为什么 DNA要种到芯片上测序呢,因为在测序过程中,会不断的有液体流过去,不链接到接头上,容易被冲走。
每个面有三个 swath,每个 swath 里面有 16 个 tile。tile 就是一个个小的区域。所以,一条lane 里面 3 乘以 16 个 tile,两个面就有 96 个 tile。整张 flowcell 上面就有 96 乘以 8,768个 tile。整张芯片上栽满测序接头,里面能容纳的 DNA 越多,测序数据量就越大。通过进样空将加好引物接头的样品加到 flowcell,就将文库种到芯片上了。
6.3 cluster
建库完成之后,我们就开始进行 cluter 的过程,cluster 是测序过程中非常重要的一步。cluster是聚集或者成簇的意思。将测序样品 DNA 注入 flowcell 后并不能立刻上机测序,而是还要经过 cluster 富集的一个过程。这是 NGS 技术的一个核心特点。桥式 PCR 以 flowcell 表面所固定的序列为模板,进行桥形扩增,经过不断的扩增和变性循环,最终每个 DNA 片段都将在各自的位置上集中成束,每一个束都含有单个 DNA 模板的很多分拷贝,这一过程的目的在于实现将单一碱基的信号强度进行放大,以达到测序所需的信号要求。
为什么要有这样一个富集的过程呢。因为在测序过程中,需要对碱基的荧光基团激发,捕获这个荧光信号。如果只有一个荧光基团,那么这个信号将非常非常的弱,所有,通过这个富集之后,让原来的 1 条序列,长成一簇,对荧光信号进行放大。这样摄像头才能更准确捕获到这个荧光。这个过程有些像这种光纤的玩具。单独一条光很弱,也很难分辨出颜色。当把这一簇放到一起的时候,信号就被增大了很多倍,也很容易区分开荧光的颜色。
桥式 PCR 扩增
cluster 这个过程,采用了一种桥式 PCR 的方法。桥式 PCR 与传统 PCR 有一些不同。在桥式PCR 反应中,正向引物和反向引物都被通过一个柔性接头(flexible linker)固定在固相载体(solid substrate)上。经过 PCR 反应,所有的模板扩增产物就都被固定到了芯片上固定的位置。因为文库两头的接头是和芯片上接头序列是碱基互补,所以样品加到 folwcell 上之后,接头进行互补杂交,文库的序列就被种到芯片上。然后加入 dNTP 和聚合酶,聚合酶就会从引物开始,沿着模板,合成出一条全新的序列。这条新的 DNA 序列与原来的是互补的。这个时候加入氢氧化钠碱溶液,DNA 双链开始解开成两条单链。那么这两条链一条与接头结合,而另一条没有,所以,在液体流过的时候,这条链就被冲走了。然后加入中性液体,在加入中和液,现在变成了中性环境,这个时候板上的 DNA 单链的一端就发生弯曲,与周围的芯片上另一种引物互补杂交。接下来在加入聚合酶和 dNTP,进行 PCR 反应,那么就合成了一条新的链。那么重复最开始的过程,在加碱性溶液,在加中和液。这个时候 DNA 链就和新的接头杂交。那么现在原来的一条链就变成了两条链。在重复一次以上过程,两条就变成了 4 条,在重复一次,就会倍增一次。这样经过几次之后扩增之后,DNA 的倍数就会以指数增长,原来的 1 条最终就变成了一簇。但是这一簇的序列都是一致的。相当于一个克隆的过程。这个过程就称为桥式 PCR,因为 DNA 上端接头与芯片上接头杂交,DNA 形成一个弯曲的“桥”,DNA 在这个桥上进行一次 PCR 扩增。
6.4 测序
在 cluter 完成之后,就可以进行上机测序了。illumina 的测序属于边合成边测序。向反应体系中同时添加 DNA 聚合酶、接头引物和带有碱基特异荧光标记的 4 种 dNTP(如同 Sanger测序法)。这些 dNTP 的 3’-OH 被化学方法所保护,因而每次只能添加一个 dNTP,这就确保了在测序过程中,一次只会被添加一个碱基。同时在 dNTP 被添加到合成链上后,所有未使用的游离 dNTP 和 DNA 聚合酶会被洗脱掉。接着,再加入激发荧光所需的缓冲液,用激光激发荧光信号,并有光学设备完成荧光信号的记录,最后利用计算机分析将光学信号转化为测序碱基。这样荧光信号记录完成后,再加入化学试剂淬灭荧光信号并去除 dNTP 3’-OH 保护基团,以便能进行下一轮的测序反应。
一次测序完成之后,就将荧光基团和 3’端的阻断基团切掉。切掉之后就可以继续进行合成反应,这就是最开始我们说到的可以可逆阻断终止技术。然后在加入新的 dNTP,新的合成酶。这样就合成一个新的碱基,在进行激发光照射,拍照捕获荧光。这样第二个碱基就被测序出来了。不断的重复这个过程,就会有越来越多的碱基被测序出来,测序的长度也逐渐增大。直到测序终止,那么一条链就被测序出来了。
因为 illumina 是双末端测序,所谓双端测序,从正向测序一次,从另一端在测序一次,也就是 reads2。首先是在进行一次合成,合成为双链,也就是原来测序链的互补链,然后采用化学试剂将原来的链切掉。那么剩下来的链就是原来链的互补链。然后就可以开始进行测序了。那么测序的原理与第一条 reads 测序是完全一样的。也是边合成边测序,合成碱基,激发荧光基团,捕获荧光型号,切掉荧光基团和 3’端的阻断基团。进行下一次合成测序。这样测序的这部分工作就完成了。
边合成边测序
Illumina 的这种每次只添加一个 dNTP 的技术特点能够很好的地解决同聚物长度的准确测量问题,它的主要测序错误来源是碱基的替换,目前它的测序错误率在 1%-1.5%左右。测序周期以人类基因组重测序为例,30x-50x 测序深度对于 Hisq 系列需要 3-5 天时间,而新推出的 NovaSeq 系列则只需要 40 个小时。
测序量比较(双流动槽为例,如为单流动槽则测序量减少为下表的一半,时间不变)
NovaSeq 与其他测序仪测序通量的比较(来源:illumina 官网)
上面表和图 是 NovaSeq 和其他测序系列的比较,数据相当好。按照这个数据量估算,一台 NovaSeq 6000(S4)在跑满的情况下,一年可以测序 6400 多人。而且按照以往的经验,illumina 的官方公布的数据都是偏于保守的,我们在实际的使用过程中发现高质量(Q30)的 read 其实占到了总数据的 90%以上,远高于官方公布的 75%,数据的总产量也同样更高。
七、碱基识别
测序完成之后,我们并没有直接得到 ATCG 的碱基序列,而是得到了一大堆的照片。也就是捕获的荧光信号文件,还需要对这些照片进行图像处理。转化为有颜色的光点文件,这种文件存储为 bcl 文件,从 bcl 中获得碱基的过程称为 basecalling。
文件中每个光点记录了很多内容,包括每个光点的 lane 号,tile 号,x,y 轴的坐标位置,每个循环 ATCG 的光强度。bcl 是二进制文件,还不是我们最终需要的 fastq 格式文本文件,所以,还需要使用 bcl2fastq 软件,就 bcl 文件进行转换。
碱基识别示意图
每张图片是一次测序所拍摄的照片。那么我们很容易就区分开红黄绿蓝,每种颜色代表一种碱基。第二次测序的图片在读取第二个碱基。必须是相同位置。例如图中 1 的位置,每次都读取同一个位置,最终就得到了一条序列。其实就是把这些图片落在一起。把同一个位置取出来,就是一条序列。
以上这个根据图片中颜色来判断碱基类型只是一个简单的示例说明,实际情况要比这个复杂的多。我们看到四种碱基,嘌呤和嘌呤,嘧啶和嘧啶之间化学结构是很相似的。而且四种荧光基团波长之间有交集。所以实际上并不能一下子就根据基团颜色判断出碱基。而且,我们看到,如果不是 cluster 就更加难判断了。实际上,是使用四种荧光素在 4 种被测波长处的贡献率来进行判断。例如看这个表。从图中我们看到,四种荧光对四种不同的波长有不同的贡献率。这样就形成一个四成四的贡献率矩阵。所以,最终判断每个光点,相当于解一个四元一次方程组。最终就能求解出,这个光点是 ATCG 某种碱基的概率。最终选择概率最大的那个就作为最终的碱基。这个复杂的过程,测序仪可以通过软件自行判断,最终生成的 fastq序列文件,就是我们需要的测序数据。