前言
此部分内容,均为《基因学苑》公众号付费资源的学习笔记。
一、eggnog-mapper简介
拼接完的宏基因组序列,进行基因预测,去冗余,最终得到宏基因组测序的基因组。那么这些基因都有哪些功能呢?这就需要进行基因功能注释。基因功能注释就是将待查基因与已知数据库进行比对,如果比对上则认为二者为同源基因,执行相同的功能。宏基因组中通常包括很多新发现的基因,无法比对上已知数据库。所以,在宏基因组研究中,一部分或者大部分基因无法注释得到功能属于正常现象。
这里我们使用 eggnog-mapper 工具来进行基因功能注释。eggnog-mapper 是一个非常方便的基因功能注释流程 。可以自动化完成基因功能注释工作,其内置了COG/KOG/KEGG/GO/BiGG 等数据库,也可以自行创建注释数据库。
eggnog-mapper 在不同的系统分类水平都进行了构建直系同源簇,当前使用的 eggNOG v5.0 版本数据库,包含 5,090 代表性的基因组,其中包括 4445 个细菌,168 古细菌,477个真核生物以及 2502 个病毒。当前 v2 版本的 eggnog-mapper,不在支持 hmmer 比对。
二、软件安装
网址:https://github.com/eggnogdb/eggnog-mapper
在线版本:http://eggnog-mapper.embl.de/
文档:https://github.com/eggnogdb/eggnog-mapper/wiki/eggNOG-mapper-v2
代码语言:javascript复制#安装eggnog-emapper
conda create -n eggnog-mapper python=2.7
conda activate eggnog-mapper
conda install -c bioconda -y eggnog-mapper
mkdir eggnog_database
cd eggnog_database
#镜像数据下载
axel -n 100 http://download.nmdc.cn/tools/eggnog/eggnog.db.gz
axel -n 100 http://download.nmdc.cn/tools/eggnog/eggnog_proteins.dmnd.gz
#基因功能注释
diamond --version
diamond version 0.8.22 #diamond提示数据库版本不对,就安装2.0.13版本
conda install diamond=2.0.13
三、软件使用
代码语言:javascript复制emapper.py -i mg.filter.faa --output annotation -m diamond --data_dir eggnog_database
选项参数:
-i: 输入文件,最好是基因的氨基酸文件
-o: 输出结果前缀
-m: 使用 HMMER 策略还是 DIAMOND 策略,默认使用 HMMER,新版本只支持 diamond
--cpu:使用的线程数
--translate:如使用的核酸序列,选择 HMMER 策略时需要先翻译成氨基酸序列
--usemem:将 emapper.db 读入内存
--output_dir:输出结果文件夹
--report_orthologs:列出所有进行功能转移的直系同源基因
--no_annot: 只汇总鉴定的最佳 seed 序列以及相应的 E 值和 Bitscore 值
--no_search:可直接基于--no_annot 的结果进行后续功能注释
--target_orthologs: one2one,many2one,one2many,many2many,all 可选。
--data_dir: 数据库目录
--tax_scope: 指定选择的直系同源基因的物种分类范围,默认为自动判断。
四、结果解读
最终会生成两个文件,分别是 mg.emapper.annotations 和 mg.emapper.seed_orthologs
第一列:查询序列名称;
第二列:eggNOG 种子序列;
第三列:eggNOG 种子序列 evalue;
第四列:eggNOG 种子序列 bit score;
第五列:预测基因名称;
第六列:GO_terms, 预测的 GO,分号分隔;
第七列:KEGG_KO: 预测的 KO,分号分隔;
第八列:BiGG_Reactions: BiGG 代谢反应预测,分号分隔;
第九列:eggNOG Taxonomic Scope 信息;
第十列:匹配的 OGs;
第十一列:best_OG|evalue|score: Best matching Orthologous Groups (only in HMM mode)
第十二列:COG 功能分类;
第十三列:eggNOG 功能描述;
写在最后:有时间我们会努力更新的。大家互动交流可以前去论坛,地址在下面,复制去浏览器即可访问,弥补下公众号没有留言功能的缺憾。
代码语言:javascript复制bioinfoer.com
有些板块也可以预设为大家日常趣事的分享等,欢迎大家来提建议。