二代测序宏基因组分析软件安装及数据库下载

2023-02-24 13:15:40 浏览数 (1)

一、二代宏基因组分析的特点

优势:

1、高通量,可以测序出低丰度样品;

2、价格低,适合大规模样品测序;

3、准确性高,鉴定结果准确;

不足:

1、读长短,容易出现多重比对;

2、设备重,不方便现场测序;

3、容易收到 GC 偏向性影响;

4、需要扩增,容易引入偏向性。

二、二代测序宏基因组分析流程

二代宏基因组分析流程图

1、数据质控:使用 kneaddata 软件,该软件先调用 Trimmomatic 过滤数据,然后利用bowtie2 或 bmtagger 比对宿主数据库去除宿主数据 (也可以去除核糖体数据)。

2、如果不拼接,则可以进行物种分类鉴定,包括组成件鉴定和功能鉴定,物种丰度分析,使用软件 MetaPhlAn2 或 Kraken2 实现序列的物种分类。功能鉴定可以使用 Humann 完成。

3、也可以对基因组进行拼接,使用 megahit 和 metaspades 软件按照样本进行宏基因组组装。拼接完整之后,可以进行基因预测,使用 prokka 软件直接从组装好的 contig 或者scafford 预测基因,并使用 cd-hit 构建非冗余基因集。然后对预测得到的基因进行功能分析,与已知数据库例如 NR, COG, GO, KEGG, CAZY, ARDB 等数据库注释基因的功能。

如果想做基因丰度分析,有两种方案,第一种非比对方案,使用 Salmon 软件;第二种比对方案,bwa 或其他比对软件比对,bedtools 丰度统计。

4、如果有多样品,可以进行分组统计,将得到物种/基因/功能表后利用 R 语言或者 STAMP等软件在物种,基因,功能等三个层面进行差异分析。

三、宏基因组分析团队

3.1 The Huttenhower Lab

代码语言:javascript复制
官方主页:http://huttenhower.sph.harvard.edu/
biobakery 主页:https://github.com/biobakery
Galaxy 主页:http://huttenhower.sph.harvard.edu/galaxy/

3.2 意大利特伦托大学 Nicola Segata

代码语言:javascript复制
官方主页:http://segatalab.cibio.unitn.it/
github 主页:https://github.com/biobakery
代码语言:javascript复制
开发维护软件:http://segatalab.cibio.unitn.it/tools/index.html
MetaPhlAn (2022 ),PhyloPhlAn (2020),ViromeQC (2019),curatedMD (2017),MetaMLST 
(2016),StrainPhlAn (2022),MetAML (2016),PanPhlAn (2020),GraPhlAn (2015),MetaRef 
(2014),MetaPhlAn (2012),LEfSe (2011),ShortBRED (2015),MicroPITA (2014),HUMAnN 
(2012)

四、软件安装以及数据库下载

4.1 软件安装

代码语言:javascript复制
#bioBakery:http://segatalab.cibio.unitn.it/tools/biobakery/index.html
conda create -n biobakery python=3.7 -y
conda activate biobakery
conda config --add channels biobakery

#安装软件humann,kneaddata
conda install -y -c bioconda humann
#conda install -y -c biobakery humann 或者这个点安装
conda install -y -c biobakery kneaddata
conda install -y krona
conda install -y -c biobakery hclust2

#python2.7环境
conda create -n graphlan python=2.7 -y
conda activate graphlan
conda install -y graphlan
conda install -y export2graphlan
#conda install -y -c bioconda strainphlan  没安装上

4.2 kneaddata 配置

代码语言:javascript复制
$ kneaddata_database
KneadData Databases ( database : build = location )
human_genome : bowtie2 = http://huttenhower.sph.harvard.edu/kneadData_databases/Homo_sapiens_hg37_and_human_contamination_Bowtie2_v0.1.tar.gz
human_genome : bmtagger = http://huttenhower.sph.harvard.edu/kneadData_databases/Homo_sapiens_BMTagger_v0.1.tar.gz
human_transcriptome : bowtie2 = http://huttenhower.sph.harvard.edu/kneadData_databases/Homo_sapiens_hg38_transcriptome_Bowtie2_v0.1.tar.gz
ribosomal_RNA : bowtie2 = http://huttenhower.sph.harvard.edu/kneadData_databases/SILVA_128_LSUParc_SSUParc_ribosomal_RNA_v0.2.tar.gz
mouse_C57BL : bowtie2 = http://huttenhower.sph.harvard.edu/kneadData_databases/mouse_C57BL_6NJ_Bowtie2_v0.1.tar.gz
#可以将以上链接复制去本地迅雷下载,再上传到服务器 比较快
kneaddata_database --download human_genome bowtie2 ./ #自带命令下载比较慢
#第二种:国家微生物科学中心下载,挺快
lftp ftp://download.nmdc.cn/tools/kneaddata
mirror human_genome

#自建bowtie2索引
#下载拟南芥
axel -n 100 http://ftp.ensemblgenomes.org/pub/plants/release-53/fasta/arabidopsis_thaliana/dna/Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.gz
gunzip Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.gz
mv Arabidopsis_thaliana.TAIR10.dna.toplevel.fa tair10.fa
# bowtie2构建索引
bowtie2-build -f tair10.fa tair10 --threads 12

4.3 metaphlan 配置

代码语言:javascript复制
#安装 metaphlan
conda create --name mpa -c bioconda python=3.7 metaphlan
#官网下载,
Zenodo:https://zenodo.org/record/3957592#.YrFQd4dBwQ8
    wget https://zenodo.org/record/3957592/files/mpa_v30_CHOCOPhlAn_201901_marker_info.txt.bz2
    wget https://zenodo.org/record/3957592/files/mpa_v30_CHOCOPhlAn_201901.tar

Segatalab FTP:http://cmprod1.cibio.unitn.it/biobakery3/metaphlan_databases/
    http://cmprod1.cibio.unitn.it/biobakery3/metaphlan_databases/mpa_v31_CHOCOPhlAn_201901_marker_info.txt.bz2
    http://cmprod1.cibio.unitn.it/biobakery3/metaphlan_databases/mpa_v31_CHOCOPhlAn_201901.tar
    可以用迅雷下载完上传,两个文件共计400M左右。

#国家微生物科学中心下载,版本可能不对,建议还是上述迅雷下载
lftp ftp://download.nmdc.cn/tools/humann3
mirror metaphlan_databases/

#配置数据库
cd ~/Software/miniconda3/envs/mpa/lib/python3.7/site-packages/metaphlan/metaphlan_databases/
cp /share/home/xiehs/17.meta/database/metaphlan/* ./ #刚才下载文件所在的目录
    $ ll
    total 400M
    -rw-rw-r-- 2 xiehs xiehs   50 Oct 26 20:59 README.txt
    -rw-rw-r-- 1 xiehs xiehs  14M Oct 31 10:35 mpa_v31_CHOCOPhlAn_201901_marker_info.txt.bz2
    -rw-rw-r-- 1 xiehs xiehs 408M Oct 31 10:35 mpa_v31_CHOCOPhlAn_201901.tar

4.4 humann 配置

软件的安装非常简单,一条命令即可,关键在于数据库的配置。humann 需要依赖很多数据库。首先需要配置好 metaphlan,其次下载一些 humann 需要的数据库,具体数据库见下面介绍 。

1、MetaPhlAn 的 Marker 基因集,用于物种组成分析,物种包括古菌、细菌、真核生物和病毒;

2、ChocoPhlAn 泛基因组数据库, 可以更快速准确获得功能谱,可获得基因组、基因和通路层面的结果;

3、UniRef:数据库提供基因家族的定义,UniRef 包含三个子库,按照序列相似度分别为UniRef100,UniRef90 和 UniRef50。UniRef100 无相同序列,而 UniRef90 和 UniRef50 则是非冗余的,聚类相似度 90%和 50%。不要将 uniref 数据放到同一目录下,会先比较 uniref90在比较 uniref50;

4、MetaCyc:通路基因通路的定义;

5、MinPath:提供定义的最小通路集。

代码语言:javascript复制
#方法1:从官网下载数据库,速度比较慢
#显示数据库内容
humann_databases
    http://huttenhower.sph.harvard.edu/humann_data/chocophlan/full_chocophlan.v296_201901b.tar.gz
#创建数据库目录
mkdir humann3_databases 
#方法1:官网下载,下载速度慢,用迅雷吧
humann_databases --download chocophlan full humann3_databases
humann_databases --download uniref uniref90_diamond humann3_databases
#humann_databases --download uniref uniref90_ec_filtered_diamond humann3_databases
humann_databases --download uniref uniref50_diamond humann3_databases
#humann_databases --download uniref uniref50_ec_filtered_diamond humann3_databases
humann_databases --download utility_mapping full humann3_databases

#方法2:国家微生物科学数据中心下载数据库,版本不对,这种方式下载不建议
lftp ftp://download.nmdc.cn/tools/
ls
mirror humann3 #full_chocophlan.v201901.tar.gz可见版本不对,不是前面humann_databases中的01b版本,这种方式下载不建议
mkdir chocophlan uniref utility_mapping

将4个数据库分别下载上传后,解压到各自目录

#3 更新数据库
humann_config --print
#数据库目录 /ifs1/MetaDatabase/humann3_databases,这里选用90的ref,准一些
humann_config --update database_folders nucleotide /share/home/xiehs/17.meta/database/humann3_databases/full_chocophlan
humann_config --update database_folders protein /share/home/xiehs/17.meta/database/humann3_databases/uniref90_diamond
humann_config --update database_folders utility_mapping /share/home/xiehs/17.meta/database/humann3_databases/utility_mapping
#更新完检查
humann_config --print
#修改线程
humann_config --update run_modes threads 12

写在最后:有时间我们会努力更新的。大家互动交流可以前去论坛,地址在下面,复制去浏览器即可访问,弥补下公众号没有留言功能的缺憾。

代码语言:javascript复制
bioinfoer.com

有些板块也可以预设为大家日常趣事的分享等,欢迎大家来提建议。

0 人点赞