地址:
https://www.ncbi.nlm.nih.gov/genome/browse
主页示意:
FTP一栏中的G为Genebank下载链接,R为Refseq下载链接,下载这个表即可得基因组链接列表:
或者我们也可以直接进入Refseq的FTP:
地址:
ftp://ftp.ncbi.nlm.nih.gov/genomes/
页面示意:
下载assembly_summary_refseq.txt文件来查看所有基因组下载链接,我们可以在自己的服务器中使用wget循环下载这些基因组。
就在2020年3月上旬,Refseq原核生物的Representative基因组还只有5000多个,然而上周五我发现Representative基因组已经翻了一番,达到了11000多个:
可以看到现有数据大多数分布于细菌三大group:Proteobacteria、Terrabacteria group和FCB group,普通水土环境里面最常见的微生物也是这三大类。所有taxonomy代表基因组都有所增加,尤其是Terrabacteria,例如蓝藻之前只有4个代表基因组,而现在增加到150个。
这次大增可能是近几年广泛研究的结果,很多谱系可知性增加,生命之树愈加完善,随后很多基于Refseq代表基因组的生信工具也可能更新。想要使用最新数据库的朋友们可以提前下载准备啦!
END