一、二代宏基因组分析的特点
优势:
1、高通量,可以测序出低丰度样品;
2、价格低,适合大规模样品测序;
3、准确性高,鉴定结果准确;
不足:
1、读长短,容易出现多重比对;
2、设备重,不方便现场测序;
3、容易收到 GC 偏向性影响;
4、需要扩增,容易引入偏向性。
二、二代测序宏基因组分析流程
二代宏基因组分析流程图
1、数据质控:使用 kneaddata 软件,该软件先调用 Trimmomatic 过滤数据,然后利用bowtie2 或 bmtagger 比对宿主数据库去除宿主数据 (也可以去除核糖体数据)。
2、如果不拼接,则可以进行物种分类鉴定,包括组成件鉴定和功能鉴定,物种丰度分析,使用软件 MetaPhlAn2 或 Kraken2 实现序列的物种分类。功能鉴定可以使用 Humann 完成。
3、也可以对基因组进行拼接,使用 megahit 和 metaspades 软件按照样本进行宏基因组组装。拼接完整之后,可以进行基因预测,使用 prokka 软件直接从组装好的 contig 或者scafford 预测基因,并使用 cd-hit 构建非冗余基因集。然后对预测得到的基因进行功能分析,与已知数据库例如 NR, COG, GO, KEGG, CAZY, ARDB 等数据库注释基因的功能。
如果想做基因丰度分析,有两种方案,第一种非比对方案,使用 Salmon 软件;第二种比对方案,bwa 或其他比对软件比对,bedtools 丰度统计。
4、如果有多样品,可以进行分组统计,将得到物种/基因/功能表后利用 R 语言或者 STAMP等软件在物种,基因,功能等三个层面进行差异分析。
三、宏基因组分析团队
3.1 The Huttenhower Lab
代码语言:javascript复制官方主页:http://huttenhower.sph.harvard.edu/
biobakery 主页:https://github.com/biobakery
Galaxy 主页:http://huttenhower.sph.harvard.edu/galaxy/
3.2 意大利特伦托大学 Nicola Segata
代码语言:javascript复制官方主页:http://segatalab.cibio.unitn.it/
github 主页:https://github.com/biobakery
代码语言:javascript复制开发维护软件:http://segatalab.cibio.unitn.it/tools/index.html
MetaPhlAn (2022 ),PhyloPhlAn (2020),ViromeQC (2019),curatedMD (2017),MetaMLST
(2016),StrainPhlAn (2022),MetAML (2016),PanPhlAn (2020),GraPhlAn (2015),MetaRef
(2014),MetaPhlAn (2012),LEfSe (2011),ShortBRED (2015),MicroPITA (2014),HUMAnN
(2012)
四、软件安装以及数据库下载
4.1 软件安装
代码语言:javascript复制#bioBakery:http://segatalab.cibio.unitn.it/tools/biobakery/index.html
conda create -n biobakery python=3.7 -y
conda activate biobakery
conda config --add channels biobakery
#安装软件humann,kneaddata
conda install -y -c bioconda humann
#conda install -y -c biobakery humann 或者这个点安装
conda install -y -c biobakery kneaddata
conda install -y krona
conda install -y -c biobakery hclust2
#python2.7环境
conda create -n graphlan python=2.7 -y
conda activate graphlan
conda install -y graphlan
conda install -y export2graphlan
#conda install -y -c bioconda strainphlan 没安装上
4.2 kneaddata 配置
代码语言:javascript复制$ kneaddata_database
KneadData Databases ( database : build = location )
human_genome : bowtie2 = http://huttenhower.sph.harvard.edu/kneadData_databases/Homo_sapiens_hg37_and_human_contamination_Bowtie2_v0.1.tar.gz
human_genome : bmtagger = http://huttenhower.sph.harvard.edu/kneadData_databases/Homo_sapiens_BMTagger_v0.1.tar.gz
human_transcriptome : bowtie2 = http://huttenhower.sph.harvard.edu/kneadData_databases/Homo_sapiens_hg38_transcriptome_Bowtie2_v0.1.tar.gz
ribosomal_RNA : bowtie2 = http://huttenhower.sph.harvard.edu/kneadData_databases/SILVA_128_LSUParc_SSUParc_ribosomal_RNA_v0.2.tar.gz
mouse_C57BL : bowtie2 = http://huttenhower.sph.harvard.edu/kneadData_databases/mouse_C57BL_6NJ_Bowtie2_v0.1.tar.gz
#可以将以上链接复制去本地迅雷下载,再上传到服务器 比较快
kneaddata_database --download human_genome bowtie2 ./ #自带命令下载比较慢
#第二种:国家微生物科学中心下载,挺快
lftp ftp://download.nmdc.cn/tools/kneaddata
mirror human_genome
#自建bowtie2索引
#下载拟南芥
axel -n 100 http://ftp.ensemblgenomes.org/pub/plants/release-53/fasta/arabidopsis_thaliana/dna/Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.gz
gunzip Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.gz
mv Arabidopsis_thaliana.TAIR10.dna.toplevel.fa tair10.fa
# bowtie2构建索引
bowtie2-build -f tair10.fa tair10 --threads 12
4.3 metaphlan 配置
代码语言:javascript复制#安装 metaphlan
conda create --name mpa -c bioconda python=3.7 metaphlan
#官网下载,
Zenodo:https://zenodo.org/record/3957592#.YrFQd4dBwQ8
wget https://zenodo.org/record/3957592/files/mpa_v30_CHOCOPhlAn_201901_marker_info.txt.bz2
wget https://zenodo.org/record/3957592/files/mpa_v30_CHOCOPhlAn_201901.tar
Segatalab FTP:http://cmprod1.cibio.unitn.it/biobakery3/metaphlan_databases/
http://cmprod1.cibio.unitn.it/biobakery3/metaphlan_databases/mpa_v31_CHOCOPhlAn_201901_marker_info.txt.bz2
http://cmprod1.cibio.unitn.it/biobakery3/metaphlan_databases/mpa_v31_CHOCOPhlAn_201901.tar
可以用迅雷下载完上传,两个文件共计400M左右。
#国家微生物科学中心下载,版本可能不对,建议还是上述迅雷下载
lftp ftp://download.nmdc.cn/tools/humann3
mirror metaphlan_databases/
#配置数据库
cd ~/Software/miniconda3/envs/mpa/lib/python3.7/site-packages/metaphlan/metaphlan_databases/
cp /share/home/xiehs/17.meta/database/metaphlan/* ./ #刚才下载文件所在的目录
$ ll
total 400M
-rw-rw-r-- 2 xiehs xiehs 50 Oct 26 20:59 README.txt
-rw-rw-r-- 1 xiehs xiehs 14M Oct 31 10:35 mpa_v31_CHOCOPhlAn_201901_marker_info.txt.bz2
-rw-rw-r-- 1 xiehs xiehs 408M Oct 31 10:35 mpa_v31_CHOCOPhlAn_201901.tar
4.4 humann 配置
软件的安装非常简单,一条命令即可,关键在于数据库的配置。humann 需要依赖很多数据库。首先需要配置好 metaphlan,其次下载一些 humann 需要的数据库,具体数据库见下面介绍 。
1、MetaPhlAn 的 Marker 基因集,用于物种组成分析,物种包括古菌、细菌、真核生物和病毒;
2、ChocoPhlAn 泛基因组数据库, 可以更快速准确获得功能谱,可获得基因组、基因和通路层面的结果;
3、UniRef:数据库提供基因家族的定义,UniRef 包含三个子库,按照序列相似度分别为UniRef100,UniRef90 和 UniRef50。UniRef100 无相同序列,而 UniRef90 和 UniRef50 则是非冗余的,聚类相似度 90%和 50%。不要将 uniref 数据放到同一目录下,会先比较 uniref90在比较 uniref50;
4、MetaCyc:通路基因通路的定义;
5、MinPath:提供定义的最小通路集。
代码语言:javascript复制#方法1:从官网下载数据库,速度比较慢
#显示数据库内容
humann_databases
http://huttenhower.sph.harvard.edu/humann_data/chocophlan/full_chocophlan.v296_201901b.tar.gz
#创建数据库目录
mkdir humann3_databases
#方法1:官网下载,下载速度慢,用迅雷吧
humann_databases --download chocophlan full humann3_databases
humann_databases --download uniref uniref90_diamond humann3_databases
#humann_databases --download uniref uniref90_ec_filtered_diamond humann3_databases
humann_databases --download uniref uniref50_diamond humann3_databases
#humann_databases --download uniref uniref50_ec_filtered_diamond humann3_databases
humann_databases --download utility_mapping full humann3_databases
#方法2:国家微生物科学数据中心下载数据库,版本不对,这种方式下载不建议
lftp ftp://download.nmdc.cn/tools/
ls
mirror humann3 #full_chocophlan.v201901.tar.gz可见版本不对,不是前面humann_databases中的01b版本,这种方式下载不建议
mkdir chocophlan uniref utility_mapping
将4个数据库分别下载上传后,解压到各自目录
#3 更新数据库
humann_config --print
#数据库目录 /ifs1/MetaDatabase/humann3_databases,这里选用90的ref,准一些
humann_config --update database_folders nucleotide /share/home/xiehs/17.meta/database/humann3_databases/full_chocophlan
humann_config --update database_folders protein /share/home/xiehs/17.meta/database/humann3_databases/uniref90_diamond
humann_config --update database_folders utility_mapping /share/home/xiehs/17.meta/database/humann3_databases/utility_mapping
#更新完检查
humann_config --print
#修改线程
humann_config --update run_modes threads 12
写在最后:有时间我们会努力更新的。大家互动交流可以前去论坛,地址在下面,复制去浏览器即可访问,弥补下公众号没有留言功能的缺憾。
代码语言:javascript复制bioinfoer.com
有些板块也可以预设为大家日常趣事的分享等,欢迎大家来提建议。