三代纳米孔宏基因组拼接

背景

（1）纳米孔宏基因组测序的优点：纳米孔测序技术有着独一无二的优势，具体有8点，

1.DNA/RNA直接测序

2.可扩展性:便携式或台式测序仪

3.真正的实时性

4.10分钟文库制备

5.无需对测序设备的资金投入

6.高保真度

7.超长读长

8.对大基因组的高数据量测序

（2）利用Nanopore测序拼接的优势

1、超长读长，解决重复序列问题；

2、超长读长解决相位问题；

3、超高通量测序，单张芯片最大可产出300G以上数据；

一、纳米孔测序宏基因组拼接下载数据

从宏基因组测序中拼接细菌完成图，《Complete and validated genomes from a metagenome》2012 年加拿大 Northern Alberta 油砂尾矿池附近海藻细菌培养分离样品，2019 年重新培养提取。

纳米孔测序宏基因组拼接案例

二、利用 metaFlye 拼接基因组

flye 软件原来叫做 abruijn，是一款适合单分子测序的拼接软件，可以用于 Pacbio 与 nanopore测序数据。flye 适合拼接多种数据集，从小的细菌基因组到很大的哺乳动物基因组。flye 其实也是一个完整的拼接流程，首先原始测序数据作为输入，最后就可以直接输出经过纠错校正的基因组序列，同时给出拼接结果统计。flye 也有一个独立的模块 metaFlye 可以用来拼接宏基因组。

软件官网：https://github.com/fenderglass/Flye

查看数据：

代码语言：javascript复制

seqkit stat ERR3994080_1.fastq.gz
file                   format  type  num_seqs        sum_len  min_len  avg_len  max_len
ERR3994080_1.fastq.gz  FASTQ   DNA    724,734  6,557,524,714        2  9,048.2  195,618

之前我们用二代数据megahit拼接完，最长才48k多，这个纳米孔原始数据最长就已经19k多了。

使用案例

就像它简介的名字一样，flye 使用起来也非常简单。直接输入 pacbio 或者 ont 的测序数据即可，可以是 fasta 格式，也可以是 fastq 格式文件，支持压缩格式。可以是原始数据，也可以是纠错后的数据，但需要通过选项参数分别设定。

代码语言：javascript复制

conda install -y flye
echo "time flye --nano-raw ERR3994080_1.fastq.gz --genome-size 200M --out-dir flye --meta --threads 24 1>flye.log 2>flye.err" >flye.sh
bsub -q fat -n 24 -o %J.log -e %J.err sh flye.sh

常用选项参数：

--pacbio-raw ：输入原始 pacbio 数据

--pacbio-corr ：输入纠错后的 pacbio 数据

--nano-raw：输入原始 nanopore 数据

--nano-corr ：输入原始 nanopore 数据

--genome-size：预估基因组大小，用于评估覆盖深度

--out-dir：输出结果文件路径

--threads：cpu 线程数据

--iterations：纠错迭代次数

--min-overlap：最小 overlap 连接大小

--meta: 拼接宏基因组数据

--plasmids: 拼接质粒数据

输出结果

代码语言：javascript复制

total 404M
drwxrwxr-x 2 xiehs xiehs 4.0K Dec 28 17:07 00-assembly/
drwxrwxr-x 2 xiehs xiehs 4.0K Dec 28 17:23 10-consensus/
drwxrwxr-x 2 xiehs xiehs 4.0K Dec 28 17:34 20-repeat/
drwxrwxr-x 2 xiehs xiehs 4.0K Dec 28 17:36 30-contigger/
drwxrwxr-x 2 xiehs xiehs 4.0K Dec 28 18:13 40-polishing/
-rw-rw-r-- 1 xiehs xiehs   92 Dec 28 18:13 params.json
-rw-rw-r-- 1 xiehs xiehs 328K Dec 28 18:13 assembly_graph.gv
-rw-rw-r-- 1 xiehs xiehs 202M Dec 28 18:13 assembly_graph.gfa
-rw-rw-r-- 1 xiehs xiehs 198M Dec 28 18:13 assembly.fasta
-rw-rw-r-- 1 xiehs xiehs  52K Dec 28 18:13 assembly_info.txt
-rw-rw-r-- 1 xiehs xiehs 2.8M Dec 28 18:13 flye.log

最后结果目录中有三个文件比较重要。

1、assembly.fasta ：最终拼接得到的基因组序列，fasta 格式。

2、assembly_graph.{gfa|gv} ：拼接过程中用到的 repeat graph。

3、assembly_info.txt：拼接结果统计信息，也可以自己单独使用 seqkit 工具统计。

总结

1、软件使用简单；

2、自带纠错功能；

3、可以拼接宏基因组和质粒；

代码语言：javascript复制

grep 'bYb' assembly_info.txt
contig_1389     5785557 17      Y       N       1       *       1389
contig_765      5143764 118     Y       N       4       *       765
contig_308      4678198 21      Y       N       1       *       308
contig_227      4471145 116     Y       N       4       *       227
contig_777      4139087 13      Y       N       1       *       777
contig_37       3976090 20      Y       N       1       *       37
contig_1311     3954350 69      Y       N       2       *       1311
contig_307      3834242 83      Y       N       3       *       307
contig_1258     3764263 15      Y       N       1       *       1258
contig_1287     3740429 47      Y       N       2       *       1287
contig_1074     3729233 38      Y       N       1       *       1074
contig_282      3220921 18      Y       N       1       *       282
contig_268      3174875 237     Y       N       9       *       268
contig_517      3147655 429     Y       N       16      *       517
contig_1403     2881730 43      Y       N       1       *       1403
以上15个可能是拼好的环状基因组
samtools faidx assembly.fasta contig_1389 >contig_1389.fasta
samtools faidx assembly.fasta contig_765 >contig_765.fasta
samtools faidx assembly.fasta contig_308 >contig_308.fasta
可以与nt库比较出是哪个物种，网页ncbi比较也可以。
head contig_1389.fasta
序列复制去 https://blast.ncbi.nlm.nih.gov/Blast.cgi 鉴定。
当然也可以用centrifuge软件物种鉴定。

写在最后：有时间我们会努力更新的。大家互动交流可以前去论坛，地址在下面，复制去浏览器即可访问，弥补下公众号没有留言功能的缺憾。

代码语言：javascript复制

bioinfoer.com

有些板块也可以预设为大家日常趣事的分享等，欢迎大家来提建议。

编程算法数据结构

0 人点赞