Picrust2的下载略。
在linux系统中进picrust2环境:
代码语言:javascript复制source activate /softwares/miniconda3/envs/picrust2
1.Sequence placement
-s 输入fasta文件
-p 线程数
--ref_dir 参考文件所在目录
place_seqs.py -s ITS.fasta -o placed_seqs.tre -p 20 --intermediate placement_working --ref_dir /softwares/miniconda3/envs/picrust2/lib/python3.6/site-packages/picrust2/default_files/fungi/fungi_ITS/
这一步有个隐藏参数--min_align 0.8,低于相似度的序列会被移除。
2. Hidden-state prediction
注意这一步要跑两次,结果用于第三步。其中ITS counts要加一个-n,计算Nearest-sequenced taxon index (NSTI)。
-i 选项为(16S', 'COG', 'EC', 'KO', 'PFAM', 'TIGRFAM', 'PHENO'),这写都是做16S的选项。
这个地方错了好久。如果用真菌做,不要加 -i 这个参数。直接在后面加 --observed_trait_table 跟要比对的表就行了。
加-i会报错:
代码语言:javascript复制Standard error of the above failed command:
Error: None of the reference ids within the function abundance table are found within the input tree. This can occur when malformed or mismatched custom reference files are used.
Execution halted
-t 上一步出来的树文件
-o 输出文件
真菌只有两个表,就是做下面两步的。
ITS counts:
hsp.py -t placed_seqs.tre -o marker_nsti_predicted.tsv.gz -p 20 -n --observed_trait_table /softwares/miniconda3/envs/picrust2/lib/python3.6/site-packages/picrust2/default_files/fungi/ITS_counts.txt.gz
EC通路预测:
hsp.py -t placed_seqs.tre -o EC_predicted.tsv.gz -p 20 --observed_trait_table /softwares/miniconda3/envs/picrust2/lib/python3.6/site-packages/picrust2/default_files/fungi/ec_ITS_counts.txt.gz
3.Metagenome prediction
用上一步出来的两个结果跑这一步。
-i OTU表
metagenome_pipeline.py -i otu_.txt -m marker_nsti_predicted.tsv.gz -f EC_predicted.tsv.gz -o EC_metagenome_out
4. Infer pathway abundances
EC的结果直接和MataCyc比对:
(E.C. numbers regrouped to MetaCyc reactions be default)
pathway_pipeline.py -i EC_metagenome_out/pred_metagenome_unstrat.tsv.gz -o pathways_out --intermediate minpath_working -p 20
出来一个不分层的文件unstrat
如果要出来分层结果:
pathway_pipeline.py -i EC_metagenome_out/pred_metagenome_unstrat.tsv.gz -o pathways_out --intermediate minpath_working -p 20 --per_sequence_abun EC_metagenome_out/seqtab_norm.tsv.gz --per_sequence_function EC_predicted.tsv.gz --per_sequence_contrib
5.Add descriptions
给结果添加注释信息。
add_descriptions.py -i EC_metagenome_out/pred_metagenome_unstrat.tsv.gz -m EC -o EC_metagenome_out/pred_metagenome_unstrat_descrip.tsv.gz
结果前两列就是EC号和对应的功能。
流程到此结束。
PIcutst2中的default_files一共四个文件夹,一个原核,一个真菌。另外两个是各个数据库的文件。
真菌里面包含了18S和ITS。
ITS参考序列一共190条序列。
18S参考序列一共216条序列。
16S参考序列共20000条序列。