《陈巍学基因》笔记①illumina测序化学原理

欢迎大家打开本次推送~从本期推送开始，将由 ? 小编为大家整理《陈巍学基因》的笔记。

《陈巍学基因》是一系列由陈巍老师主讲的视频节目，从 15 年开始更新（视频所示部分技术并非文章发布时「2020 年」最新，本系列文章会在叙述时给予加粗标注），主要为介绍基因组学，和临床分子诊断的最新技术进展。

「接下来就让我们开始吧~」

第一期原视频
illumina NGS 测序
Flowcell
测序流程
- 文库制作(Library Preparation)
- 簇生成(Cluster Generation)
- 测序(Sequencing)

第一期原视频

微信内使用腾讯源，理论上无广告

illumina NGS 测序

「Next-Generation Sequencing (NGS)」，中文可译为下一代/第二代测序技术。而 illumina 公司是当今二代测序的巨鳄，其测序技术原理是用可逆终止子和荧光标记的 dNTP 来做边合成、边测序[1]的工作。

?本期节目主要介绍的就是 illumina 公司 NGS 技术的生化原理。

Flowcell

中文可直译为流动槽，是一种载玻片形状大小的半导体芯片，其最新用于 HiSeq 系列等测序仪（首先应用于 HiSeq X Ten 测序仪）的实物图片如下所示：

Flowcell - illumina

我们可以看到，该芯片中的玻璃被分隔成 8 条通道，每个通道称为一个 Lane，每个 Lane 两端有允许溶液进出的小孔。

Flowcell 模式图 - illumina

在最新的Nanocell技术中，玻璃基片上蚀刻着数十亿计的有序纳米孔，纳米孔内底部以共价键的方式种有两种互补的 DNA 引物，能使 DNA 链在纳米孔内着位，而纳米孔之间的区域没有 DNA 探针（如下图）。

Nanocell - illumina

值得注意的是，每个 Lane 的上表面和下表面都种有引物，都能产生测序数据。而在每个 Lane 的每一个面又横向分为三个扫描通道，称为 Swath。在扫描时，每条 Swath 从头到底被连续扫描，扫描到的序列称为Reads。

?注：当时与 HiSeq 2000 等测序仪配套的 Flowcell 中并无纳米孔，DNA 引物随机排列在玻璃基底上（示意图可见其间隔、分布不一）。

测序流程

文库制作(Library Preparation)

DNA 文库(library)

释义：许多的 DNA 片段，在两端接上特定的 DNA 接头(adapter)所形成的混合物（非百度重定向的cDNA文库定义）。

特点：

插入的 DNA 序列可以是各式各样的。
接头序列是人工接上的与芯片上引物互补的序列，所以是已知的。

制作原因：测序 DNA 来源不一，需要经过类似格式化的过程，将 DNA 处理成方便测序仪处理的形式。

常用制作流程：

将 DNA 用超声波打断至 100-200bp 片段。
两头用酶补平。
用 Klenow酶在 3' 端加上一个 A 碱基。
用连接酶将其与接头序列(P5、P7)等连接（所用接头序列与 DNA 引物互补）。
建库需时约6小时。

建库后DNA示意图 - illumina

簇生成(Cluster Generation)

桥式 PCR 扩增

其基本原理传统 PCR 扩增技术，由于两端引物固定在芯片上，扩增过程中 DNA 链呈拱桥状，故名「桥式 PCR」（bridge PCR amplification）。

流程：

把文库解成单链加到芯片上。由于文库接头序列与 DNA 引物互补，所以能把文库种到芯片上。
往芯片加入 dNTP 和聚合酶。聚合酶会产生一条与文库模板互补的新链。
加入 NaOH(aq)，使 DNA 解链。从而冲掉没有种在芯片上的模板链。
加入中性液，用于稀释中和碱液。由于存在两种引物和接头，DNA 链另一端开始与另一种引物互补配对，形成「拱桥」。

动画4 - illumina

往芯片加入 dNTP 和聚合酶。聚合酶会从第二个引物向第一个引物延伸出一条新链。
加入 NaOH(aq)，使 DNA 解链。从而生成一对种在芯片上的互补单链。

动画5~6 - illumina

不断重复 4-6 步，DNA 链的数量，就会以指数方式增长。同时由于所有簇同步发生，使所有片段得到扩增。

动画7 - illumina

扩增全过程需时约5小时。

制备单链

目的：得到可供测序的正向单链。

过程：

加入 NaOH(aq)，使所有桥式 DNA 解链成直线。
采用「高碘酸希夫」反应，将反向链与引物的链接切断，并封闭引物 3' 端避免发生配对。
用碱液清洗中和芯片，从而留下共价键连在芯片上的正向链。
加入中性溶液和测序引物（Read1引物），开始第一次测序。

测序(Sequencing)

试剂

可逆终止子和荧光标记 dNTP，这就是illumina二代测序的核心技术。四种颜色的荧光基团用叠氮（黑色）连接到四种相应的碱基上，同时核苷酸 3' 末端也用一个叠氮基（红色）堵住，避免后续配对。

荧光标记带修饰的dNTP ?叠氮基团在遇到巯基试剂（如，二巯基丙醇）时，会发生断裂，并在原来的位置留下一个羟基。而这个羟基也是碱基原本应有的。同时，巯基试剂切断叠氮基团的效率极高，这可以保证这个反应可以多次反复地高效地进行，而不影响每步反应的得率。

聚合酶。该类聚合酶需对修饰后的 dNTP 仍保持较高聚合活性。 ?目前illumina的试剂盒对应聚合酶系已经进化到 V4 版。

流程

加入 dNTP 和聚合酶。因为这个 dNTP 的 3' 端被叠氮基团堵住，所以在一个循环中只能延长一个碱基。
用水冲掉多余试剂。
激光扫描芯片，根据发出来的荧光来判断它是哪个碱基。由于新合成的碱基和原来位置的碱基是互补，因而可以推断出模板链对应的碱基。
加入巯基试剂，把叠氮基团和荧光基团切掉，使 3' 端的羟基暴露出来。
加入新的 dNTP 和新的酶。又延长一个碱基。
不断重复以上步骤，就可以测出 DNA 序列。
以上即为「边合成、边测序」。
此次对样本的第一次测序，称为Read1测序。

索引

释义：用来标记样本来源的已知短序列（~6bp），英文称「index」（也称「Barcode」，原理类似商场通过条形码识别商品）。

Q: 为什么要加入索引？

A: 通过标记不同样本的来源，可以在一次测序流程中测出多组 DNA。

流程

先用碱液解链，从而去除上一步合成的Read1链。
加入读 index 所需引物（Read2引物，结合在index旁边），进行测序，得知样本来源。这种测序亦称为Read2测序。
一般会在双端各插入一个 index 以提高准确性[2]，同时达到可双端测序的目的。

双端测序(Paried-end(PE) Sequencing)

根据前面的讲解我们可以知道，一条 DNA 链，除了从 5'→3'正向读一遍，还可以从 DNA 的 3'→5'反向再读一遍。

双端测序示意图 - illumina

流程

加入普通的 dNTP 和聚合酶通过桥式 PCR 合成互补链。与上述单链处理方式基本相同（虽然原理有不少差异），本次目的是洗掉正向链，留下反向链测序。

处理原理对比 - illumina

加入Read3引物（与Read2引物一般位置相同，序列互补）进行测序，此次测序就称Read3测序。

意义[3]

相当于把测序的有效长度翻一番，能有效解决单端测序长度限制问题（如图），并且提高准确性。

正向反向序列连接配对，形成连续序列再与参考基因序列比对，检测鉴定变异，还能带来新发现。

大规模平行测序(Massive Parallel Sequencing, MPS)

每条测序链都可成为一个簇，而一条芯片上有上亿个簇在同步合成、测序，能得到很大的测序量。

MPS 同时也是应用于二代和三代测序的技术基础。而关于 MPS 的更多内容我们将于后续讲解~

「以上就是《陈巍学基因》第一期的笔记内容 ↑ 」

?教练，道理我都懂，但是测序到底怎么测啊（？）

敬请期待下期推送，我们将介绍 illumina HiSeq 2000 测序仪的原理！

References

[1]Sequencing-By-Synthesis(SBS): http://www.illumina.com/technology/next-generation-sequencing.html

[2]Kircher M, Sawyer S, Meyer M. Double indexing overcomes inaccuracies in multiplex sequencing on the Illumina platform. Nucleic AcidsRes. 2012:2513–2524. : https://doi.org/10.1093/nar/gkr771

[3]Nakazato T, Ohta T, Bono H. Experimental design-based functional mining and characterization of high-throughput sequencing data in the sequence read archive.PLoS One. 2013;8(10):e77910.: https://doi.org/10.1371/journal.pone.0077910

[4]Credit: 编辑／Andy审校／罗鹏排版由mdnice.com强力驱动

ntp 硬件开发

0 人点赞