centrifuge软件以及数据库

2023-02-24 13:13:36 浏览数 (1)

一、纳米孔测序在宏基因组中的应用

基于鸟枪法(Shotgun Sequencing)的高通量测序已经走过 10 多年,在宏基因组领域的应用也超过 10 年,在这 10 多年里,基于二代测序高通量的特性,在宏基因组,16S 测序中已经取得了非常大的进展。然而,二代测序读长短、建库周期长、无法实时测序等技术特点,依然限制了宏基因组数据分析的发展。尤其是读长短,只有不到 2X300bp,比对唯一性差,会造成一对多的比对,并且短读长无法得到好的拼接效果,无法直接从宏基因组中拼接出完整细菌基因组等。而这些技术缺点,通过新一代的纳米孔测序可以很好的解决,纳米孔诸多的优点为宏基因组研究带来了新的突破,下面我们来总结一下 nanopore 测序技术在宏基因组中的应用。

1、在采样点直接测序分析

2、病原微生物快速鉴定

3、耐药基因识别

4、长读长具有更高的准确性

5、基因组中拼接细菌完成图

二、Centrifuge 软件配置

2.1 centrifuge 简介

Centrifuge 是一款快速有效的宏基因组物种组成分类的软件,采用了结合 BWT 变换(Burrows-Wheeler transform,BWT)和 FM 索引(Ferragina-Manzini ,FM)的策略对序列分类进行优化,通过基因组压缩策略有效降低了内存的需求,因此可以处理 NT 库级别的库索引。Centrifuge 为 Johns Hopkins University CCB(The Center for Computational Biology)出品, 采用的软件架构和 bowtie2、hisat2 等还是比较类似,命令行接口也类似,学习成本比较低。Centrifuge 目前是纳米孔官方分析平台 EPI2ME 中 WIMP 模块采用的软件。

Centrifuge 允许一条序列可以有多个 taxonomy 标签,并允许通过设置阈值将多个 hits 回归到 LCA 模式,针对 multi-hit 模式,通过 EM 算法可以进行丰度定量。centrifuge-kreport 提供了将 Centrifuge 的结果转换成 Kraken 风格的结果。

官网以及github主页如下:

代码语言:javascript复制
http://www.ccb.jhu.edu/software/centrifuge/
https://github.com/infphilo/centrifuge

2.2 下载公共数据库索引

centrifuge 的数据库建库比较麻烦,所以可以选择一些公共数据库。Genexa 公司官方网站为我们提供了建立好的数据库。直接下载就可以使用。

h v c: 人基因组 病毒基因组 106 SARS-CoV-2 基因组,

h p v c: 人基因组 细菌基因组 病毒基因组 106 SARS-CoV-2 基因组

当前库版本 p h v(Bacteria,Viruses, Human),大小 13G, 包含了 28718 条核酸序列,14871 个 NCBI Taxonomy 节点,8382 species , NT 库 77G 大小, 包含了 39648092 条核酸序列,1028487 个物种信息。

下载已有数据

h v c: 人基因组 病毒基因组 106 SARS-CoV-2 基因组

代码语言:javascript复制
https://zenodo.org/record/3732127/files/h v c.tar.gz?download=1

h p v c: 人基因组 细菌基因组 病毒基因组 106 SARS-CoV-2 基因组

代码语言:javascript复制
https://zenodo.org/record/3732127/files/h p v c.tar.gz?download=1

2.3 建立自己的索引

1、NCBI refseq 数据库

如果想要自行建库也可以,首先下载 NCBI ref 数据库,例如全部细菌基因组,古细菌基因组以及病毒基因组,以及物种分类数据库 taxonomy,如果要比对宿主,也可以添加人或者小鼠全基因组。友情提示:网速一定要好,否则很难成功。

代码语言:javascript复制
#下载 ncbi 数据库
./centrifuge-download -o taxonomy taxonomy
#下载 refseq 细菌(17927),古细菌(366)以及病毒基因组()
centrifuge-download -o library -m -d "archaea,bacteria,viral" refseq > seqid2taxid.map
#加入人以及小鼠基因组
centrifuge-download -o library -d "vertebrate_mammalian" -a "Chromosome" -t 9606,10090 -c 'reference genome' >> seqid2taxid.map
#合并数据
cat library/*/*.fna > input-sequences.fna
#建立索引
centrifuge-build -p 4 --conversion-table seqid2taxid.map --taxonomy-tree taxonomy/nodes.dmp --name-table taxonomy/names.dmp input-sequences.fna abv

2、使用 nt 库索引

nt 库包含全部测序序列,内容比较全,但是缺点是数据量太大,无论是建立索引还是比对都比较耗时。

代码语言:javascript复制
#nt库创建索引
zcat nucl_gb.accession2taxid.gz | awk '{print $2"t"$3}' >acc_to_tid.dmp
python2 /ifs1/Software/biosoft/centrifuge/centrifuge-build --conversion-table acc_to_tid.dmp --taxonomy-tree nodes.dmp --name-table names.dmp nt nt

写在最后:有时间我们会努力更新的。大家互动交流可以前去论坛,地址在下面,复制去浏览器即可访问,弥补下公众号没有留言功能的缺憾。

代码语言:javascript复制
bioinfoer.com

有些板块也可以预设为大家日常趣事的分享等,欢迎大家来提建议。

0 人点赞