跟着NPJ学宏基因组分析流程-肠道微生物群通过调节胆汁酸代谢来影响奥贝胆酸对非酒精性脂肪性肝病的治疗效果

2023-08-26 14:14:46 浏览数 (1)

hello,hello!小伙伴们大家下午好,我是小编豆豆,之前小编给大家分享了NC学宏基因组分析流程,今天小编再给大家分享一篇宏基因流程,文章提供完整的分析流程和代码,是一篇学习宏基因组数据分析不错的素材。文章是2023年3月份发表在 npj biofilms and microbiomes,题为:Gut microbiome determines therapeutic effects of OCA on NAFLD by modulating bile acid metabolism。

【分析背景】

非酒精性脂肪肝病(NAFLD)是最常见的慢性肝病之一,目前没有批准的药物治疗方法。有研究表明,奥贝胆酸(OCA)作为一种新型的胆汁酸衍生物,可以改善NAFLD相关症状。本研究的目的是研究经过高脂饮食诱导患有NAFLD小鼠经过OCA治疗后肠道菌群潜在作用。

【分析结果】

宏基因组分析显示,OCA干预HFD小鼠后,Akkermansia muciniphila、Bifidobacterium spp.、Bacteroides spp.、Alistipes spp、Lactobacillus spp.、Streptococcus thermophilus、Parasutterella excrementihominis的丰度明显增加。靶向代谢组学分析显示,OCA能够调节宿主胆酸池,降低血清中疏水性胆酸(CA)和化脱氧胆酸(CDCA)的水平,并增加血清结合胆酸的水平。菌群丰度与胆酸变化之间存在密切相关性。此外,OCA干预后富集的细菌在编码7α-羟基类固醇脱氢酶(7α-HSDs)产生次级胆酸方面具有更高的潜力,而不是主要负责原发胆酸脱共轭的胆盐水解酶(BSHs)。

这篇文章中,作者提供完整的分析流程和分析代码,小编将其中的宏基因组分析方法整理出来,希望能帮助小伙伴在学习宏基因组数据分析时提供参考。

【宏基因组分析流程】

1.宏基因组数据测序

Illumina NovaSeq 6000 PE150

2.原始数据质控

使用FastQC对原始数据的质量进行质控;并使用Trimmomatic去除低质量的数据,软件参数为:SLIDINGWINDOW:4:20 MINLEN:50。

代码语言:javascript复制
fastqc sampleID.fastq -o quality/
trimmomatic PE -phred33 -trimlog log.txt $INPUT_PATH/SampleID_1.fastq.gz $INPUT_PATH/SampleID_2.fastq.gz $OUTPUT_PATH/paired_SampleID_1.fq.gz $OUTPUT_PATH/paired_SampleID_2.fq.gz $OUTPUT_PATH/paired_SampleID_1.fq.gz $OUTPUT_PATH/unpaired_SampleID_2.fq.gz ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:20 MINLEN:50

3.去除宿主基因组污染

使用bowtie2将质控后的数据比对到小鼠基因组上(版本:GRCm38)。

代码语言:javascript复制
bowtie2-build genomic.fa genome_index 
bowtie2 -x genome_index -1 $INPUT_PATH/trimmed_SampleID_1.fq.gz -2 $INPUT_PATH/trimmed_SampleID_2.fq.gz --un-conc-gz $OUTPUT_PATH/SampleID.hostfree.fq.gz -p 60 -S $OUTPUT_PATH/SampleID.sam 1>$OUTPUT_PATH/SampleID.o 2>$OUTPUT_PATH/SampleID.e

4.宏基因组组装

使用metaSPAdes对宏基因组数据进行组装。

代码语言:javascript复制
spades.py --meta -t 20 -m 500 -1 $INPUT_PATH/SampleID.hostfree_1.fq.gz -2 $INPUT_PATH/SampleID.hostfree_2.fq.gz -o $OUTPUT_PATH/SampleID_assembly 1>$OUTPUT_PATH/SampleID.o 2>$OUTPUT_PATH/SampleID.e

5.基因预测与基因聚类

使用MetaGeneMark对组装结果进行开放阅读框(ORF)的预测,并使用cd-hit对蛋白序列进行聚类,获得非冗余基因集。

代码语言:javascript复制
$PATH/MetaGeneMark_linux_64/mgm/gmhmmp -a -d -f 3 -m $PATH/MetaGeneMark_linux_64/mgm/MetaGeneMark_v1.mod $INPUT_PATH/contigs.fa -A $OUTPUT_PATH/protein.fasta -D $OUTPUT_PATH/nuleotide.fasta
$PATH/cd-hit-v4.8.1/cd-hit -i $INPUT_PATH/protein.fasta -o nr95_protein.fa -n 5 -g 1 -c 0.95 -G 0 -M 0 -d 0 -aS 0.9

6.计算基因丰度

使用Salmon对基因进行丰度计算。

代码语言:javascript复制
salmon index -p 20 -t $INPUT_PATH/nr95_gene.fa -i $OUTPUT_PATH/nr95_gene_index
salmon quant -i $PATH/nr95_gene_index --libType IU -1 $INPUT_PATH/SampleID.hostfree_1.fastq.gz -2 $INPUT_PATH/SampleID.hostfree_2.fastq.gz -o $OUTPUT_PATH/SampleID.quant --meta -p 30

7.物种注释和基因功能注释

使用MetaPhlAn2进行物种注释,使用DIAMOND和eggNOG基因功能注释,软件参数为:-more-sensitive和--evalue 1e-5。

代码语言:javascript复制
metaphlan2.py SampleID.fasta --input_type fasta > SampleID_profile.txt
emapper.py -i nr95_protein.fa -o eggNOG_annotation --cpu 0 --evalue 1e-5
diamond blastp -q $PATH_gtdb_results/SGB.protein.faa --db $PATH_TO_KEGG_DATABASE --outfmt 6 --out SGB.KEGG.m8 --threads 40 -e 1e-5

8.宏基因bining和功能基因挖掘

使用Bwa和SAMtools将高质量的微生物序列与参考基因组进行比对,计算每个样本中SGBs(species-level genome bins)的丰度。通过将SGBs的contigs的深度归一化为基因组的总长度,计算每个SGB的丰度,以便进行样本间的比较。对未在先前研究中分类的差异丰度的SGBs,使用GTDB-TK将其进行分类注释,使用基因组分类数据库(GTDB release207_v2)进行匹配。使用Prodigal对SGBs进行蛋白质预测,并使用DIAMOND,参数:--evalue 1e-5进行KEGG数据库注释,筛选与胆酸代谢相关的酶。

代码语言:javascript复制
samtools faidx ./coverage/all.reprentatives.fa
awk 'BEGIN {FS="t"}; {print $1 FS "0" FS $2}' ./coverage/all.reprentatives.fa.fai  > ./coverage/all.reprentatives.bed
bwa index ./coverage/all.reprentatives.fa

for i in $(ls trimedfile/*_1*)
do
        echo ${i}
        s=$(echo ${i}|awk -F '_1' '{print $1,$2}' OFS='_2')
        j=$(echo ${i}|awk -F '_1' '{print $1}' )
        jj=$(echo ${j}|awk -F '/' '{print $NF}')
        echo ${s}
        echo ${j}
        echo ${jj}
        bwa mem -t 20 ./coverage/all.reprentatives.fa  ${i} ${s} |samtools sort > ./coverage/${jj}.representives.sorted.bam 
        samtools index ./coverage/${jj}.representives.sorted.bam
        bedtools coverage -a ./coverage/all.reprentatives.bed -b ./coverage/${jj}.representives.sorted.bam > ./coverage/${jj}.coveri
done
export GTDBTK_DATA_PATH=/data2/zdh/Database/GTDBTk/release207_v2/
gtdbtk classify_wf --keep_intermediates --genome_dir $INPUT_PATH/SGBs_folder/ --extension fa --out_dir $OUTPUT_PATH/gtdb_results --cpus 30 --tmpdir $TMP_DIRECTORY_PATH

【参考文献】

[1].Liu, J., Sun, J., Yu, J. et al. Gut microbiome determines therapeutic effects of OCA on NAFLD by modulating bile acid metabolism. npj Biofilms Microbiomes 9, 29 (2023). https://doi.org/10.1038/s41522-023-00399-z

[2].https://github.com/ThomasYJK555/Zhanglab_NAFLD_study

0 人点赞