《陈巍学基因》笔记①illumina测序化学原理

2020-07-03 17:53:55 浏览数 (1)

欢迎大家打开本次推送~从本期推送开始,将由 ? 小编为大家整理《陈巍学基因》的笔记。

《陈巍学基因》是一系列由陈巍老师主讲的视频节目,从 15 年开始更新(视频所示部分技术并非文章发布时「2020 年」最新,本系列文章会在叙述时给予加粗标注),主要为介绍基因组学,和临床分子诊断的最新技术进展。

「接下来就让我们开始吧~」

目录

  • 第一期原视频
  • illumina NGS 测序
  • Flowcell
  • 测序流程
    • 文库制作(Library Preparation)
    • 簇生成(Cluster Generation)
    • 测序(Sequencing)

第一期原视频

微信内使用腾讯源,理论上无广告

illumina NGS 测序

「Next-Generation Sequencing (NGS)」,中文可译为下一代/第二代测序技术。而 illumina 公司是当今二代测序的巨鳄,其测序技术原理是用可逆终止子和荧光标记的 dNTP 来做边合成、边测序[1]的工作。

?本期节目主要介绍的就是 illumina 公司 NGS 技术的生化原理。

Flowcell

中文可直译为流动槽,是一种载玻片形状大小的半导体芯片,其最新用于 HiSeq 系列等测序仪(首先应用于 HiSeq X Ten 测序仪)的实物图片如下所示:

Flowcell - illumina

我们可以看到,该芯片中的玻璃被分隔成 8 条通道,每个通道称为一个 Lane,每个 Lane 两端有允许溶液进出的小孔。

Flowcell 模式图 - illumina

在最新的Nanocell技术中,玻璃基片上蚀刻着数十亿计的有序纳米孔,纳米孔内底部以共价键的方式种有两种互补的 DNA 引物,能使 DNA 链在纳米孔内着位,而纳米孔之间的区域没有 DNA 探针(如下图)。

Nanocell - illumina

值得注意的是,每个 Lane 的上表面和下表面都种有引物,都能产生测序数据。而在每个 Lane 的每一个面又横向分为三个扫描通道,称为 Swath。在扫描时,每条 Swath 从头到底被连续扫描,扫描到的序列称为Reads。

?注:当时与 HiSeq 2000 等测序仪配套的 Flowcell 中并无纳米孔,DNA 引物随机排列在玻璃基底上(示意图可见其间隔、分布不一)。

测序流程

文库制作(Library Preparation)

DNA 文库(library)

释义:许多的 DNA 片段,在两端接上特定的 DNA 接头(adapter)所形成的混合物(非百度重定向的cDNA文库定义)。

特点:

  1. 插入的 DNA 序列可以是各式各样的。
  2. 接头序列是人工接上的与芯片上引物互补的序列,所以是已知的。

制作原因:测序 DNA 来源不一,需要经过类似格式化的过程,将 DNA 处理成方便测序仪处理的形式。

常用制作流程:
  1. 将 DNA 用超声波打断至 100-200bp 片段。
  2. 两头用酶补平。
  3. Klenow酶在 3' 端加上一个 A 碱基。
  4. 用连接酶将其与接头序列(P5、P7)等连接(所用接头序列与 DNA 引物互补)。
  5. 建库需时约6小时。

建库后DNA示意图 - illumina

簇生成(Cluster Generation)

桥式 PCR 扩增

其基本原理传统 PCR 扩增技术,由于两端引物固定在芯片上,扩增过程中 DNA 链呈拱桥状,故名「桥式 PCR」(bridge PCR amplification)。

流程:
  1. 把文库解成单链加到芯片上。由于文库接头序列与 DNA 引物互补,所以能把文库种到芯片上。
  2. 往芯片加入 dNTP 和聚合酶。聚合酶会产生一条与文库模板互补的新链。
  3. 加入 NaOH(aq),使 DNA 解链。从而冲掉没有种在芯片上的模板链。
  4. 加入中性液,用于稀释中和碱液。由于存在两种引物和接头,DNA 链另一端开始与另一种引物互补配对,形成「拱桥」

动画4 - illumina

  1. 往芯片加入 dNTP 和聚合酶。聚合酶会从第二个引物向第一个引物延伸出一条新链。
  2. 加入 NaOH(aq),使 DNA 解链。从而生成一对种在芯片上的互补单链。

动画5~6 - illumina

  1. 不断重复 4-6 步,DNA 链的数量,就会以指数方式增长。同时由于所有簇同步发生,使所有片段得到扩增。

动画7 - illumina

  1. 扩增全过程需时约5小时。
制备单链

目的:得到可供测序的正向单链。

过程:

  1. 加入 NaOH(aq),使所有桥式 DNA 解链成直线。
  2. 采用「高碘酸希夫」反应,将反向链与引物的链接切断,并封闭引物 3' 端避免发生配对。
  3. 用碱液清洗中和芯片,从而留下共价键连在芯片上的正向链。
  4. 加入中性溶液和测序引物(Read1引物),开始第一次测序。

测序(Sequencing)

试剂
  1. 可逆终止子和荧光标记 dNTP,这就是illumina二代测序的核心技术。四种颜色的荧光基团用叠氮(黑色)连接到四种相应的碱基上,同时核苷酸 3' 末端也用一个叠氮基(红色)堵住,避免后续配对。

荧光标记带修饰的dNTP ?叠氮基团在遇到巯基试剂(如,二巯基丙醇)时,会发生断裂,并在原来的位置留下一个羟基。而这个羟基也是碱基原本应有的。 同时,巯基试剂切断叠氮基团的效率极高,这可以保证这个反应可以多次反复地高效地进行,而不影响每步反应的得率。

  1. 聚合酶。该类聚合酶需对修饰后的 dNTP 仍保持较高聚合活性。 ?目前illumina的试剂盒对应聚合酶系已经进化到 V4 版。
流程
  1. 加入 dNTP 和聚合酶。因为这个 dNTP 的 3' 端被叠氮基团堵住,所以在一个循环中只能延长一个碱基。
  2. 用水冲掉多余试剂。
  3. 激光扫描芯片,根据发出来的荧光来判断它是哪个碱基。由于新合成的碱基和原来位置的碱基是互补,因而可以推断出模板链对应的碱基。
  4. 加入巯基试剂,把叠氮基团和荧光基团切掉,使 3' 端的羟基暴露出来。
  5. 加入新的 dNTP 和新的酶。又延长一个碱基。
  6. 不断重复以上步骤,就可以测出 DNA 序列。
  7. 以上即为「边合成、边测序」
  8. 此次对样本的第一次测序,称为Read1测序。
索引

释义:用来标记样本来源的已知短序列(~6bp),英文称「index」(也称「Barcode」,原理类似商场通过条形码识别商品)。

Q: 为什么要加入索引?

A: 通过标记不同样本的来源,可以在一次测序流程中测出多组 DNA。

流程
  1. 先用碱液解链,从而去除上一步合成的Read1链。
  2. 加入读 index 所需引物(Read2引物,结合在index旁边),进行测序,得知样本来源。 这种测序亦称为Read2测序。
  3. 一般会在双端各插入一个 index 以提高准确性[2],同时达到可双端测序的目的。
双端测序(Paried-end(PE) Sequencing)

根据前面的讲解我们可以知道,一条 DNA 链,除了从 5'→3'正向读一遍,还可以从 DNA 的 3'→5'反向再读一遍。

双端测序示意图 - illumina

流程
  1. 加入普通的 dNTP 和聚合酶通过桥式 PCR 合成互补链。与上述单链处理方式基本相同(虽然原理有不少差异),本次目的是洗掉正向链,留下反向链测序。

处理原理对比 - illumina

  1. 加入Read3引物(与Read2引物一般位置相同,序列互补)进行测序,此次测序就称Read3测序。
意义[3]
  1. 相当于把测序的有效长度翻一番,能有效解决单端测序长度限制问题(如图),并且提高准确性。
  1. 正向反向序列连接配对,形成连续序列再与参考基因序列比对,检测鉴定变异,还能带来新发现。
大规模平行测序(Massive Parallel Sequencing, MPS)

每条测序链都可成为一个簇,而一条芯片上有上亿个簇在同步合成、测序,能得到很大的测序量。

MPS 同时也是应用于二代和三代测序的技术基础。而关于 MPS 的更多内容我们将于后续讲解~

「 以上就是《陈巍学基因》第一期的笔记内容 ↑ 」

?教练,道理我都懂,但是测序到底怎么测啊(?)

敬请期待下期推送,我们将介绍 illumina HiSeq 2000 测序仪的原理!

References

[1]Sequencing-By-Synthesis(SBS): http://www.illumina.com/technology/next-generation-sequencing.html

[2]Kircher M, Sawyer S, Meyer M. Double indexing overcomes inaccuracies in multiplex sequencing on the Illumina platform. Nucleic AcidsRes. 2012:2513–2524. : https://doi.org/10.1093/nar/gkr771

[3]Nakazato T, Ohta T, Bono H. Experimental design-based functional mining and characterization of high-throughput sequencing data in the sequence read archive.PLoS One. 2013;8(10):e77910.: https://doi.org/10.1371/journal.pone.0077910

[4]Credit: 编辑/Andy审校/罗鹏排版由mdnice.com强力驱动

0 人点赞