宏基因组分析环境搭建

2023-02-24 13:12:28 浏览数 (1)

一、安装软件

代码语言:javascript复制
#创建meta虚拟环境
conda create -n meta -y
conda activate meta
conda install -y fastqc
conda install -y multiqc
conda install -y fastp
conda install -y seqkit
conda install -y bwa
conda install -y bwa-mem2
conda install -y kraken2
conda install -y minimap2

二、宏基因组数据库

2.1 NCBI 物种分类 taxonomy 数据库

NCBI 的分类数据库,包括大于 7 万余个物种的名字和种系,这些物种都至少在遗传数据库中有一条核酸或蛋白序列。其目的是为序列数据库建立一个一致的种系发生分类学。截止到目前,各个物种的统计结果见下表。

数据库地址:

代码语言:javascript复制
https://www.ncbi.nlm.nih.gov/taxonomy

数据下载地址:

代码语言:javascript复制
https://ftp.ncbi.nih.gov/pub/taxonomy/

NCBI 物种分类数据库统计

2.2 nt/nr 库

nt 库:NT(Nucleotide Sequence Database),核酸序列数据库,包含所有已测序基因组序列,以及各种测序片段的序列。里面的数据是冗余的,比如同样一个物种,每测序一次,就添加一次,随着测序测序数据越来越多,nt 也越来越大。

nr 库:Non-Redundant Protein Sequence Database,非冗余蛋白库,包括 GenPept, Swissprot, PIR, PDF, PDB, and NCBI RefSeq 等库。

下载地址:

代码语言:javascript复制
https://ftp.ncbi.nih.gov/blast/db/
代码语言:javascript复制
#nt 库下载:
wget https://ftp.ncbi.nih.gov/blast/db/FASTA/nt.gz
#nr 库下载:
wget https://ftp.ncbi.nih.gov/blast/db/FASTA/nr.gz

2.3 Refseq 数据库:

RefSeq 数据库:the reference sequence database,参考序列数据库,是经过 NCBI 和其他组织校正的数据库,使用人类基因命名委员会定义的术语,并且包括了官方的基因符号和可选的符号。RefSeq 数据库和 GenBank 数据库的区别在于:GenBank 是一个开放的数据库,对每个基因都含有许多序列。genbank 的数据可能重复或者不准。而 RefSeq 数据库是 NCBI提供的校正的序列数据和相关的信息。

refseq 网址:

代码语言:javascript复制
https://www.ncbi.nlm.nih.gov/refseq/

下载地址:

代码语言:javascript复制
https://ftp.ncbi.nih.gov/refseq/release/

2.4 GTDB

GTDB:Genome Taxonomy Database,基因组分类数据库,是基于大量基因组的系统发育分析来构建基因组分类学研究的标准流程,从而对微生物进行分类 。

数据库主页:

代码语言:javascript复制
http://gtdb.ecogenomic.org/

可以使用工具 GTDB-Tk 来基于该数据库对未知基因组进行分类。

2.5 EBI MGNify

以前是 EBI Metagenomics,欧洲分子生物学中心 EBI 下属机构。提供了一个免费使用的平台,用于组装,分析和归档源自特定环境中存在的微生物种群的测序的微生物组数据。

代码语言:javascript复制
https://www.ebi.ac.uk/ena
https://www.ebi.ac.uk/metagenomics/

2.6 功能注释数据库

代码语言:javascript复制
UniProtKB:https://www.uniprot.org/
Gene Ontology:http://www.geneontology.org/
CARD 数据库:https://card.mcmaster.ca/
KEGG 数据库:https://www.kegg.jp
COG 数据库:https://www.ncbi.nlm.nih.gov/COG/
CAZy 数据库:http://www.cazy.org/

三、下载数据库

代码语言:javascript复制
#方法1 物种分类数据库
~/.aspera/connect/bin/ascp -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh --overwrite=diff -QTr -l6000m anonftp@ftp.ncbi.nih.gov:pub/taxonomy/ ./

#方法2 国家微生物科学中心
lftp ftp://download.nmdc.cn/
ls
mirror taxonomy

#nt库与nr库也可以通过aspera下载
~/.aspera/connect/bin/ascp -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh --overwrite=diff -QTr -l6000m anonftp@ftp.ncbi.nlm.nih.gov:blast/db/FASTA/nr.gz ./
~/.aspera/connect/bin/ascp -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh --overwrite=diff -QTr -l6000m anonftp@ftp.ncbi.nlm.nih.gov:blast/db/FASTA/nt.gz ./
#下载建好库的nt和nr
~/.aspera/connect/bin/ascp -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh --overwrite=diff -QTr -l6000m anonftp@ftp.ncbi.nlm.nih.gov:blast/db/nt.{00..75}.tar.gz ./
~/.aspera/connect/bin/ascp -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh --overwrite=diff -QTr -l6000m anonftp@ftp.ncbi.nlm.nih.gov:blast/db/nr.{00..63}.tar.gz ./

写在最后:有时间我们会努力更新的。大家互动交流可以前去论坛,地址在下面,复制去浏览器即可访问,弥补下公众号没有留言功能的缺憾。

代码语言:javascript复制
bioinfoer.com

有些板块也可以预设为大家日常趣事的分享等,欢迎大家来提建议。

0 人点赞