Picrust2预测真菌群落功能

2021-08-27 17:21:23 浏览数 (1)

Picrust2的下载略。

在linux系统中进picrust2环境:

代码语言:javascript复制
source activate /softwares/miniconda3/envs/picrust2

1.Sequence placement

-s 输入fasta文件

-p 线程数

--ref_dir 参考文件所在目录

place_seqs.py -s ITS.fasta -o placed_seqs.tre -p 20 --intermediate placement_working --ref_dir /softwares/miniconda3/envs/picrust2/lib/python3.6/site-packages/picrust2/default_files/fungi/fungi_ITS/

这一步有个隐藏参数--min_align 0.8,低于相似度的序列会被移除。

2. Hidden-state prediction

注意这一步要跑两次,结果用于第三步。其中ITS counts要加一个-n,计算Nearest-sequenced taxon index (NSTI)。

-i 选项为(16S', 'COG', 'EC', 'KO', 'PFAM', 'TIGRFAM', 'PHENO'),这写都是做16S的选项。

这个地方错了好久。如果用真菌做,不要加 -i 这个参数。直接在后面加 --observed_trait_table 跟要比对的表就行了。

加-i会报错:

代码语言:javascript复制
Standard error of the above failed command:
Error: None of the reference ids within the function abundance table are found within the input tree. This can occur when malformed or mismatched custom reference files are used.
Execution halted

-t 上一步出来的树文件

-o 输出文件

真菌只有两个表,就是做下面两步的。

ITS counts:

hsp.py -t placed_seqs.tre -o marker_nsti_predicted.tsv.gz -p 20 -n --observed_trait_table /softwares/miniconda3/envs/picrust2/lib/python3.6/site-packages/picrust2/default_files/fungi/ITS_counts.txt.gz

EC通路预测:

hsp.py -t placed_seqs.tre -o EC_predicted.tsv.gz -p 20 --observed_trait_table /softwares/miniconda3/envs/picrust2/lib/python3.6/site-packages/picrust2/default_files/fungi/ec_ITS_counts.txt.gz

3.Metagenome prediction

用上一步出来的两个结果跑这一步。

-i OTU表

metagenome_pipeline.py -i otu_.txt -m marker_nsti_predicted.tsv.gz -f EC_predicted.tsv.gz -o EC_metagenome_out

4. Infer pathway abundances

EC的结果直接和MataCyc比对:

(E.C. numbers regrouped to MetaCyc reactions be default)

pathway_pipeline.py -i EC_metagenome_out/pred_metagenome_unstrat.tsv.gz -o pathways_out --intermediate minpath_working -p 20

出来一个不分层的文件unstrat

如果要出来分层结果:

pathway_pipeline.py -i EC_metagenome_out/pred_metagenome_unstrat.tsv.gz -o pathways_out --intermediate minpath_working -p 20 --per_sequence_abun EC_metagenome_out/seqtab_norm.tsv.gz --per_sequence_function EC_predicted.tsv.gz --per_sequence_contrib

5.Add descriptions

给结果添加注释信息。

add_descriptions.py -i EC_metagenome_out/pred_metagenome_unstrat.tsv.gz -m EC -o EC_metagenome_out/pred_metagenome_unstrat_descrip.tsv.gz

结果前两列就是EC号和对应的功能。

流程到此结束。

PIcutst2中的default_files一共四个文件夹,一个原核,一个真菌。另外两个是各个数据库的文件。

真菌里面包含了18S和ITS。

ITS参考序列一共190条序列。

18S参考序列一共216条序列。

16S参考序列共20000条序列。

0 人点赞