hello,hello!小伙伴们大家下午好,我是小编豆豆,之前小编给大家分享了NC学宏基因组分析流程,今天小编再给大家分享一篇宏基因流程,文章提供完整的分析流程和代码,是一篇学习宏基因组数据分析不错的素材。文章是2023年3月份发表在 npj biofilms and microbiomes,题为:Gut microbiome determines therapeutic effects of OCA on NAFLD by modulating bile acid metabolism。
【分析背景】
非酒精性脂肪肝病(NAFLD)是最常见的慢性肝病之一,目前没有批准的药物治疗方法。有研究表明,奥贝胆酸(OCA)作为一种新型的胆汁酸衍生物,可以改善NAFLD相关症状。本研究的目的是研究经过高脂饮食诱导患有NAFLD小鼠经过OCA治疗后肠道菌群潜在作用。
【分析结果】
宏基因组分析显示,OCA干预HFD小鼠后,Akkermansia muciniphila、Bifidobacterium spp.、Bacteroides spp.、Alistipes spp、Lactobacillus spp.、Streptococcus thermophilus、Parasutterella excrementihominis的丰度明显增加。靶向代谢组学分析显示,OCA能够调节宿主胆酸池,降低血清中疏水性胆酸(CA)和化脱氧胆酸(CDCA)的水平,并增加血清结合胆酸的水平。菌群丰度与胆酸变化之间存在密切相关性。此外,OCA干预后富集的细菌在编码7α-羟基类固醇脱氢酶(7α-HSDs)产生次级胆酸方面具有更高的潜力,而不是主要负责原发胆酸脱共轭的胆盐水解酶(BSHs)。
这篇文章中,作者提供完整的分析流程和分析代码,小编将其中的宏基因组分析方法整理出来,希望能帮助小伙伴在学习宏基因组数据分析时提供参考。
【宏基因组分析流程】
1.宏基因组数据测序
Illumina NovaSeq 6000 PE150
2.原始数据质控
使用FastQC对原始数据的质量进行质控;并使用Trimmomatic去除低质量的数据,软件参数为:SLIDINGWINDOW:4:20 MINLEN:50。
代码语言:javascript复制fastqc sampleID.fastq -o quality/
trimmomatic PE -phred33 -trimlog log.txt $INPUT_PATH/SampleID_1.fastq.gz $INPUT_PATH/SampleID_2.fastq.gz $OUTPUT_PATH/paired_SampleID_1.fq.gz $OUTPUT_PATH/paired_SampleID_2.fq.gz $OUTPUT_PATH/paired_SampleID_1.fq.gz $OUTPUT_PATH/unpaired_SampleID_2.fq.gz ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:20 MINLEN:50
3.去除宿主基因组污染
使用bowtie2将质控后的数据比对到小鼠基因组上(版本:GRCm38)。
代码语言:javascript复制bowtie2-build genomic.fa genome_index
bowtie2 -x genome_index -1 $INPUT_PATH/trimmed_SampleID_1.fq.gz -2 $INPUT_PATH/trimmed_SampleID_2.fq.gz --un-conc-gz $OUTPUT_PATH/SampleID.hostfree.fq.gz -p 60 -S $OUTPUT_PATH/SampleID.sam 1>$OUTPUT_PATH/SampleID.o 2>$OUTPUT_PATH/SampleID.e
4.宏基因组组装
使用metaSPAdes对宏基因组数据进行组装。
代码语言:javascript复制spades.py --meta -t 20 -m 500 -1 $INPUT_PATH/SampleID.hostfree_1.fq.gz -2 $INPUT_PATH/SampleID.hostfree_2.fq.gz -o $OUTPUT_PATH/SampleID_assembly 1>$OUTPUT_PATH/SampleID.o 2>$OUTPUT_PATH/SampleID.e
5.基因预测与基因聚类
使用MetaGeneMark对组装结果进行开放阅读框(ORF)的预测,并使用cd-hit对蛋白序列进行聚类,获得非冗余基因集。
代码语言:javascript复制$PATH/MetaGeneMark_linux_64/mgm/gmhmmp -a -d -f 3 -m $PATH/MetaGeneMark_linux_64/mgm/MetaGeneMark_v1.mod $INPUT_PATH/contigs.fa -A $OUTPUT_PATH/protein.fasta -D $OUTPUT_PATH/nuleotide.fasta
$PATH/cd-hit-v4.8.1/cd-hit -i $INPUT_PATH/protein.fasta -o nr95_protein.fa -n 5 -g 1 -c 0.95 -G 0 -M 0 -d 0 -aS 0.9
6.计算基因丰度
使用Salmon对基因进行丰度计算。
代码语言:javascript复制salmon index -p 20 -t $INPUT_PATH/nr95_gene.fa -i $OUTPUT_PATH/nr95_gene_index
salmon quant -i $PATH/nr95_gene_index --libType IU -1 $INPUT_PATH/SampleID.hostfree_1.fastq.gz -2 $INPUT_PATH/SampleID.hostfree_2.fastq.gz -o $OUTPUT_PATH/SampleID.quant --meta -p 30
7.物种注释和基因功能注释
使用MetaPhlAn2进行物种注释,使用DIAMOND和eggNOG基因功能注释,软件参数为:-more-sensitive和--evalue 1e-5。
代码语言:javascript复制metaphlan2.py SampleID.fasta --input_type fasta > SampleID_profile.txt
emapper.py -i nr95_protein.fa -o eggNOG_annotation --cpu 0 --evalue 1e-5
diamond blastp -q $PATH_gtdb_results/SGB.protein.faa --db $PATH_TO_KEGG_DATABASE --outfmt 6 --out SGB.KEGG.m8 --threads 40 -e 1e-5
8.宏基因bining和功能基因挖掘
使用Bwa和SAMtools将高质量的微生物序列与参考基因组进行比对,计算每个样本中SGBs(species-level genome bins)的丰度。通过将SGBs的contigs的深度归一化为基因组的总长度,计算每个SGB的丰度,以便进行样本间的比较。对未在先前研究中分类的差异丰度的SGBs,使用GTDB-TK将其进行分类注释,使用基因组分类数据库(GTDB release207_v2)进行匹配。使用Prodigal对SGBs进行蛋白质预测,并使用DIAMOND,参数:--evalue 1e-5进行KEGG数据库注释,筛选与胆酸代谢相关的酶。
代码语言:javascript复制samtools faidx ./coverage/all.reprentatives.fa
awk 'BEGIN {FS="t"}; {print $1 FS "0" FS $2}' ./coverage/all.reprentatives.fa.fai > ./coverage/all.reprentatives.bed
bwa index ./coverage/all.reprentatives.fa
for i in $(ls trimedfile/*_1*)
do
echo ${i}
s=$(echo ${i}|awk -F '_1' '{print $1,$2}' OFS='_2')
j=$(echo ${i}|awk -F '_1' '{print $1}' )
jj=$(echo ${j}|awk -F '/' '{print $NF}')
echo ${s}
echo ${j}
echo ${jj}
bwa mem -t 20 ./coverage/all.reprentatives.fa ${i} ${s} |samtools sort > ./coverage/${jj}.representives.sorted.bam
samtools index ./coverage/${jj}.representives.sorted.bam
bedtools coverage -a ./coverage/all.reprentatives.bed -b ./coverage/${jj}.representives.sorted.bam > ./coverage/${jj}.coveri
done
export GTDBTK_DATA_PATH=/data2/zdh/Database/GTDBTk/release207_v2/
gtdbtk classify_wf --keep_intermediates --genome_dir $INPUT_PATH/SGBs_folder/ --extension fa --out_dir $OUTPUT_PATH/gtdb_results --cpus 30 --tmpdir $TMP_DIRECTORY_PATH
【参考文献】
[1].Liu, J., Sun, J., Yu, J. et al. Gut microbiome determines therapeutic effects of OCA on NAFLD by modulating bile acid metabolism. npj Biofilms Microbiomes 9, 29 (2023). https://doi.org/10.1038/s41522-023-00399-z
[2].https://github.com/ThomasYJK555/Zhanglab_NAFLD_study