特大喜讯!
就在前天,我发现EggNOG数据库已经进行了更新,也即EggNOG 5.0,特此分享给大家。与4年前的版本EggNOG 4.5相比,物种数目增加到原来的2.5倍,其中病毒数目增加了8倍,OG数目更是增加了十几倍!还在进行数据分析的小盆友们可以下载新的数据库进行注释啦!
EggNOG数据库是直源同系蛋白分组比对(evolutionary genealogy of genes: Non-supervised Orthologous Groups)数据库,由EMBL创建并维护,是对NCBI的COG数据库进行拓展,提供了不同分类水平蛋白的直系同源分组(Orthologous Groups,OG),包括真核物种、原核物种及病毒的数据信息。它扩展了COG数据库的分类方法,采用无监督聚类算法在全基因组范围内推导基因功能,更适用于谱系特征基因的分析。
旧版本EggNOG 4.5.1的主页地址:
代码语言:javascript复制http://eggnogdb.embl.de/#/app/home
新版本EggNOG 5.0的主页地址:
代码语言:javascript复制http://eggnog5.embl.de/#/app/home
大家可以看到更新后的版本数据量大大增加,不过新版本EggNOG 5.0的数据库目前还没有整理完善,主页上不同taxonomy level的数据文件下载链接没有配置好,eggnog-mapper的配套数据库并没有更新(虽然并不推荐使用这个软件),但我们可以下载蛋白序列数据,并基于Diamond或者Blast在本地进行注释分析,EggNOG 5.0的数据下载地址如下:
代码语言:javascript复制http://eggnog5.embl.de/download/eggnog_5.0/
可以看到,蛋白组序列是9天前上传,可以说是“热腾腾刚出炉”的数据。新版本另一个改进是不再使用物种名称缩写,而是使用更加规范的NCBI Taxid来进行物种分类,如下所示:
对应的数据下载地址如下:
代码语言:javascript复制http://eggnog5.embl.de/download/eggnog_5.0/per_tax_level/
接下来我们下载数据:
代码语言:javascript复制nohup wget -c http://eggnog5.embl.de/download/eggnog_5.0/e5.proteomes.faa &
nohup wget -c http://eggnog5.embl.de/download/eggnog_5.0/e5.viruses.faa &
nohup wget -c http://eggnog5.embl.de/download/eggnog_5.0/e5.taxid_info.tsv &
nohup wget -c http://eggnog5.embl.de/download/eggnog_5.0/e5.og_annotations.tsv &
其中e5.proteomes.faa为所有的蛋白组序列,e5.viruses.faa为所有的病毒蛋白序列,e5.taxid_info.tsv为Taxid对应的物种名称以及完整的谱系信息,e5.og_annotations.tsv为所有的NOG group信息,其第一列为Taxid,第二列为NOG groups,第三列为COG归属,第四列为Function。
代码语言:javascript复制91061 4HBBX L Recombinase
135623 1XVC3 K transcriptional regulator
2759 2TDXG S
2759 2QWWR S
326457 37HD9 S
33154 3A4MG S to Saccharomyces cerevisiae KRE1 (YNL322C)
1386 1ZDM2 S
1236 1SZF8 K Belongs to the sigma-70 factor family. ECF subfamily
33213 3DZ4D O BPTI/Kunitz family of serine protease inhibitors.
5819 3YWVN O adenyl-nucleotide exchange factor activity
但现在我们还不能完成注释,必须需要蛋白序列id与NOG group的对应信息,这个信息在不同taxonomy level的members.tsv文件中,例如我们可以下载细菌的注释文件:
代码语言:javascript复制nohup wget -c http://eggnog5.embl.de/download/eggnog_5.0/per_tax_level/2/2_members.tsv.gz &
gzip -d 2_members.tsv.gz
解压后的文件2_members.tsv有五列(如下所示),其中第一列为Taxid,因为我们下载的是细菌bacteria所以第一列均为2,第二列为NOG group,第三列为该NOG group所包含的蛋白序列数目,第四列为该NOG group所包含的物种数目,第五列为该NOG group所包含的蛋白序列id,第六列为该NOG group所包含的物种的Taxid。结合该members.tsv文件与前面的e5.og_annotations.tsv,就可知道比对上的蛋白序列所属的NOG group、COG categories、Function,用户可根据需要下载不同taxonomy的members.tsv文件。
代码语言:javascript复制2 2Z7HT 34 22 102129.Lepto7375DRAFT_0275,102129.Lepto7375DRAFT_2112,102129.Lepto7375DRAFT_2598,102232.GLO73106DRAFT_00036500,1128427.KB904821_gene1391,1170562.Cal6303_2259,1170562.Cal6303_2491,1170562.Cal6303_2508,1170562.Cal6303_5074,1173027.Mic7113_1932,1173264.KI913949_gene1517,118163.Ple7327_3011,118166.JH976538_gene5197,118168.MC7420_2021,1337936.IJ00_02835,1469607.KK073766_gene158,1469607.KK073768_gene299,1487953.JMKF01000024_gene2413,1487953.JMKF01000063_gene4765,195250.CM001776_gene3514,272134.KB731324_gene1583,272134.KB731326_gene213,313612.L8106_22541,313612.L8106_30595,32057.KB217478_gene628,32057.KB217483_gene9026,329726.AM1_5972,373994.Riv7116_5173,402777.KB235903_gene2606,489825.LYNGBM3L_08640,489825.LYNGBM3L_27770,489825.LYNGBM3L_60930,91464.S7335_1411,99598.Cal7507_1161 102129,102232,1128427,1170562,1173027,1173264,118163,118166,118168,1337936,1469607,1487953,195250,272134,313612,32057,329726,373994,402777,489825,91464,99598
2 2Z7HU 18 17 1041147.AUFB01000003_gene3700,1112214.AHIS01000145_gene341,113395.AXAI01000003_gene5986,1150399.AQYK01000001_gene1523,1169143.KB911034_gene1325,1185652.USDA257_c39150,1218084.BBJK01000043_gene3819,1230476.C207_06429,1283299.AUKG01000005_gene159,1298867.AUES01000002_gene1355,172088.AUGA01000005_gene7844,172088.AUGA01000005_gene7845,36809.MAB_3233,398525.KB900701_gene2649,479431.Namu_0364,485913.Krac_3073,491916.RHECIAT_CH0002212,700598.Niako_3247 1041147,1112214,113395,1150399,1169143,1185652,1218084,1230476,1283299,1298867,172088,36809,398525,479431,485913,491916,700598
2 2Z7HR 55 52 1123075.AUDP01000012_gene3481,1131462.DCF50_p783,1131462.DCF50_p784,1195236.CTER_2108,1196322.A370_02482,1226325.HMPREF1548_06405,1232447.BAHW02000007_gene212,1232453.BAIF02000056_gene1091,1232453.BAIF02000123_gene215,1235790.C805_01724,1235792.C808_03606,1235793.C809_04597,1235798.C817_01528,1235799.C818_02211,1235800.C819_00255,1321778.HMPREF1982_01711,1321778.HMPREF1982_03634,1449050.JNLE01000003_gene965,1469948.JPNB01000002_gene3428,1487923.DP73_01995,1499683.CCFF01000014_gene3840,1499684.CCNP01000018_gene696,180332.JTGN01000008_gene3961,203119.Cthe_1430,290402.Cbei_5052,397287.C807_03414,397288.C806_01381,397290.C810_02788,397291.C804_04070,398512.JQKC01000024_gene3192,411468.CLOSCI_03421,411490.ANACAC_00223,500632.CLONEX_03603,509191.AEDB02000073_gene1932,553973.CLOHYLEM_05560,555088.DealDRAFT_0584,556261.HMPREF0240_04280,573061.Clocel_1216,585394.RHOM_12650,641107.CDLVIII_0143,645991.Sgly_1568,646529.Desaci_0450,658086.HMPREF0994_03535,658088.HMPREF0987_02642,710111.FraQA3DRAFT_0449,720554.Clocl_3219,756499.Desde_2299,768704.Desmer_1075,768706.Desor_1091,768710.DesyoDRAFT_0980,871963.Desdi_1965,871968.DESME_08480,913865.DOT_4382,931276.Cspa_c57660,97139.C824_04488 1123075,1131462,1195236,1196322,1226325,1232447,1232453,1235790,1235792,1235793,1235798,1235799,1235800,1321778,1449050,1469948,1487923,1499683,1499684,180332,203119,290402,397287,397288,397290,397291,398512,411468,411490,500632,509191,553973,555088,556261,573061,585394,641107,645991,646529,658086,658088,710111,720554,756499,768704,768706,768710,871963,871968,913865,931276,97139
下载完需要的数据库后,可以在自己的服务器配置Diamond数据库:
代码语言:javascript复制cat e5.proteomes.faa e5.viruses.faa > eggnog5.proteins.all.faa
diamond makedb --in eggnog5.proteins.all.faa -d eggnog5 -p 20
接下来,我们就可以愉快地在本地进行NOG注释啦!