一、Pacbio 关键词
关键字:三代测序 单分子测序 5-70K HIFI READS 准确性和长度的平衡 价格贵 800 万条 READS 一次测序 20G
pacbio 是最早推出的三代长读长测序技术,从 2010 年正式商业化,产品经过 4 次迭代,已经取得了很大的进步,目前采用 CCS 测序模式的 pacbio,可以提供 hifi reads。准确性达到99%以上,在长度和准确性上达到一个很好的平衡。
1.1 pacbio 的优点
1、超长读长:PacBio RS 系统的平均读长为 10-15kb,PacBio Sequel 系统 可以达到 5~70kb。
2、准确性高:SMRT 的错误是随机发生的,30X 的准确度可以达到 99.999%。
3、均匀的覆盖率:SMRT 不需要扩增过程,不受 GC 偏向影响,所有片段的覆盖率均相同;
4、可直接检测碱基上的化学修饰:在通过 DNA 聚合酶的时候,有化学修饰的碱基的通过速度较慢,这种减慢可以反应在荧光信号的间隔上;
5、测序速度快:SMRT 具有很高的测序速度,每秒可以测 10 个碱基。
1.2 pacbio 的缺点
1、数据量小,一张芯片目前最多只有 800 万个孔;
2、单分子测序原始数据的错误率高,需要重复测序降低错误率;
3、测序价格较高,SMRT 的成本是二代测序的 6-7 倍;
4、长度没有纳米孔测序长;
5、测序仪成本较高,不适合小规模组织购买;
6、提高准确性需要牺牲测序长度和数据量;
二、pacbio的主要应用
三、pacbio的进化
2003年5月:成立;
2010年:PacBio RS,3K,90M;
2013年4月:PacBio RS II,15万ZMW小孔,通量0.5~1G;
2015年:Sequel System,100万ZMW小孔,通量5~10G;
2019年4月:Sequel II,800万ZMW小孔,通量20~50G;hifi reads。
2020年10月:Sequel IIe,加入计算模块。
四、pacbio读长分布
五、pacbio测序仪器
六、目前pacbio测序系统
官网:https://www.pacb.com/products-and-services/sequel-system/
七、pacbio 测序原理
7.1 SMRT CELL
Single Molecule, Real-Time sequencing,即单分子实时测序,我们简称为 SMRT 测序,是美国太平洋公司(PACBIO)推出的一项专利技术。顾名思义,SMRT 技术核心就是能够实现单个 DNA 分子的测序,并且实时监控测序结果。
SMRT CELL
图中我们看到的这样一个小小的芯片就是一个 SMRT Cell,需要进行测序的 DNA 必须转移到这样的 Cell 中,才能进行上机测序。
SMRT 中有很多 ZMW 小孔。ZMW(Zero-Mode Waveguides)孔,即零模波导孔。每一个SMRT Cell 中含有大量这种圆形纳米小孔,直径为50~100nm,该小孔利用了一种物理效应零模波导,外径比激发光波长小,当 DNA 分子进入小孔后,因激发光从孔底发出的光不能穿透小孔进入上方的溶液区,仅被限制在底部一个足以覆盖被检测 DNA 部分的区域,进而收集该区域的信号,将背景噪音降到最低。PacBio RSII 使用的一个 SMRT Cell 中含有 15 万个 ZMW 孔,PacBio Sequel 平台配套的升级版 SMRT Cell 中含有 100 万个 ZMW 孔。而随着Cell 的升级,其包含的 ZMW 小孔数还会不断增加。
7.2 聚合酶
DNA 聚合酶活性是 Pacbio 读长长短的决定性因素:
pacbio 测序聚合酶
1、在聚合酶上加上生物素,在玻璃板上加上链霉亲和素,将聚合酶固定在玻璃板的底部;
2、聚合酶存在于玻璃板的底部,当聚合酶抓住一个 dNTP 的时候,会停留一段时间,这时激发波长才会激发基团发出荧光,而孔中其他少量的游离 dNTP 则不会被激发;
3、对聚合酶的三个要求:1. 速度慢 2.延伸性好 3.准确性高。
4、聚合酶活性(Polymerase Read)可支持 30k(40-70K)的读长反应,插入片段长度 5k,那么理论上可获得 6X 的 insertion 信息即正负链各读取 3 次(不计算接头)
5、光照条件下,DNA 聚合酶活性是 Pacbio 读长长短的决定性因素,激光的持续照射会影响酶的活性,聚合酶可能会变性,因此 PB 也在不断对聚合酶进行改进(例如加保护碱基)以便减少持续的激光照射对酶活的影响;
6、PB 对聚合酶的合成速度进行大降速,从几百 bp/s 降速到 3bp/s;Pacbio 的聚合酶可以1s 钟合成 3 个碱基,1 小时就是合成 1 万多个碱基。
7、聚合物遇到模板上被修饰的碱基,例如甲基化的碱基,合成的速度明显被放慢,并且广谱特征也发生改变。这样就可以判断该位置的 DNA 被甲基化了;
8、DNA 聚合酶是实现超长读长的关键之一,SMRT 测序中不含有 PCR 扩增,测序过程中,随着 DNA 聚合酶的合成反应,碱基配对并测序,因此酶活性决定了最终测序读长,提高聚合酶延伸性并保持准确率。
7.3 哑铃状文库
Pacbio 的文库被称为 SMRTbell 文库,bell 即“铃”的意思,构建完成的 bell 文库就像一个哑铃或者说更像骨头。其主要有两部分构成:发卡状单链接头(Hairpin Adapter)和双链 DNA模板(Double stranded DNA Template)
DNA 分子被接上发卡状的 adaptor,因此,构建的文库整个是圆环的分子,利于其周而复始的复制。并且,对于一个片段的重复测序,可以提高准确度,因为不会像 illumina 测序那样,因为同时测多个碱基而出现 phasing 和 prephasing 的情况,制造噪音限制读长。
pacbio 文库
7.4 pacbio 测序
在纳米孔底部,锚定着测序模板(DNA 单链)和 DNA 聚合酶,同时包含着四种被不同荧光基团修饰的 dNTP。由于每次添加的 dNTP 所携带的荧光颜色是不同的,在激光的激发下可以发出不同的荧光,根据散射出的荧光信号可以判断添加的碱基类型。
pacbio 测序原理示意图
激光从 ZMW 的底部照入,ZMW 直径远小于激光的波长,激光不能穿过小孔且只能照亮孔底的一小部分区域,因此孔中大部分游离的 dNTP 的荧光基团将不会被激光激发,只是黑暗中的匆匆过客。在 ZMW 孔底动弹不得的 DNA 聚合酶根据碱基互补原则“抓住”对应的 dNTP准备发生聚合反应,酶从抓住到开始聚合反应的时间大概约 10ms(此时该目标碱基的荧光基团被持续激发),而 ZMW 孔底部游离的 dNTP 即使可以被激光激发但整个过程在 1~2ms左右,将被当作背景噪音来处理。
DNA 聚合酶介导的延伸反应会沿着一个方向进行,在下一个 dNTP 添加之前,前一个 dNTP上的荧光基团会从复合物上脱落下来,所以单独的一个碱基检测到的荧光信号只会持续很短的一段时间,根据检测到的不同波长和峰值以及他们之间的间隔,就可以得到和模板序列配
对的序列信息。
通过机器学习算法,即可将波信号转化成碱基序列。
八、pacbio 常见几种数据
1、Polymerase Read: 是一个测序聚合酶,在一个环装文库分子上,一直读取的序列,一般会很长,可能对环装分子读取了多遍。
2.、Subreads: Polymerase Read 的序列中,去掉哑铃状的测序接头序列,即可以得到多条subreads 序列。
3、CLR(Standard Sequencing for Continuous Long Reads),称为超长测序模式,插入片段较长,产生的数据是基于单循环测序的结果。
4、 CCS(Circular Consensus Sequence): 环装一致性序列,是一个 Polymerase read 上的多条 subreads 序列,相互校正得到的一条反映真实文库的序列。
pacbio 测序 CLR 与 CCS reads
5、Hifi reads:HiFi reads(High fidelity reads)是 Sequel II 三代测序平台推出的兼顾长读长和高准确度的测序序列,HiFi reads 具有 >99.9% (Q20)单分子 reads 准确度的准确率。
九、认识Hifi reads
HiFi reads(High fidelity reads)是 Sequel II 三代测序平台推出的兼顾长读长和高准确度的测序序列,HiFi reads 具有 >99.9% (Q20)单分子 reads 准确度的准确率。一般采用 CCS(Circular Consensus Sequencing)模式测序。
hifi reads 原理图
在这种测序模式下,酶读长一般大于插入片段长度,因此酶会绕着模板进行滚环测序,插入片段会被多次测序。单次测序中造成的随机测序错误,可以通过算法进行自我纠错校正,最终得到高准确度的 HiFi reads。要在单次测序中得到更多的 HiFi reads 往往需要平衡测序的酶读长和插入片段的长度,插入片段太长会导致酶无法进行滚环测序,插入片段太短又牺牲了三代长读长测序的优势。因此 HiFi 模式测序对酶试剂和建库过程的均一性要求较高。HiFi 文库构建的插入片段一般为 8-13 kb 左右。
Hifi reads的应用
1、全基因组组装;
2、全基因组全变异检测(SNV、InDel、SV);
3、全长转录组
十、总结pacbio测序错误来源
1、单分子测序;
2、聚合酶活性和准确性;
3、背景噪音;
4、MagBead装载错误
5、basecalling;
6、DNA链缺口;
十一、pacbio 数据质控及过滤
pacbio案例数据https://www.pacb.com/smrt-science/smrt-resources/datasets/
代码语言:javascript复制fastqc 质控
mkdir pacbio_qc/
fastqc -f fastq -o pacbio_qc/ pacbio.fastq.gz
过滤数据
filtlong --min_length 300 --min_mean_q 90 pacbio.fastq.gz
| gzip >pacbio.filtlong.fq.gz
质控完过滤
mkdir pacbio_clean
fastqc -f fastq -o pacbio_clean/ pacbio.filtlong.fq.gz
pacbio数据质控
写在最后:picbio数据在上面的官网链接有不同分类的实例数据,可以自行下载尝试处理。