一文搞定参考基因组序列下载

2020-04-14 14:41:29 浏览数 (1)

点击上方蓝色字关注我们~

各位小伙伴我们又见面了,在接下来的日子我们会给大家带来超硬核知识点。请大家带好小板凳,一起认真做笔记吧。

生物信息学的分析很大一部分都是围绕序列展开,可以说序列分析催生了生物信息学。比如通过与参考基因组序列进行比对,检测各种变异;RNA-seq数据与参考基因组比对,进行定量。

今天给大家介绍如何下载某一个物种的参考基因组序列,分为浏览器版与命令行版2种方式。

浏览器版

通过NCBI的genome数据库下载。比如我要下载人类参考基因组序列,打开https://www.ncbi.nlm.nih.gov/genome ,在搜索框中输入human, 会出现很多关键词提示,我们选择第一个(这是human的双名法名字)如下图

点击搜索,返回的结果页面包括人基因组的各种基本信息,比如每一条染色体的大小、GC含量、基因数目、假基因数目、编码的蛋白质数目。当然我们的目的是下载参考基因组序列,其他信息先不管,结果页面最上面的部分显示了参考基因组的DNA,转录本,蛋白质三种类型的FASTA序列下载地址,如下所示

点击genome就可以下载了。细心的同学可能会问下载的基因组版本不是我想要的啊,的确,从这里下载的都是最新的版本。如果想要下载之前的版本,可以复制genome的链接地址,将地址后面两部分删除,即下面地址的红色部分

ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_genomic.fna.gz

得到的就是所有版本的目录,可以根据自己的需要进入不同版本的目录进行下载。

命令行版

第一步:

下载所有参考基因组组装情况的汇总信息:ftp://ftp.ncbi.nlm.nih.gov/genomes/ASSEMBLY_REPORTS/assembly_summary_refseq.txt

第二步:

获取FTP下载地址并下载。这里根据物种的taxid取出FTP信息,human的taxid为9606,(每个物种都会有自己的taxid,可以去https://www.ncbi.nlm.nih.gov/taxonomy/搜索每个物种的taxid, 具体细节见文末)代码如下:

代码语言:javascript复制
awk -F "t" '$11=="latest" && $20~"^ftp:" && $7==9606{print $20}' assembly_summary_refseq.txt > 9606.txt 
awk 'BEGIN{FS=OFS="/";filesuffix="genomic.fna.gz"}{ftpdir=$0;asm=$10;file=asm"_"filesuffix;print ftpdir,file}' 9606.txt > 9606.ftpfilepath  
wget -c -i 9606.ftpfilepath #使用wget下载

备注:如何查找一个物种的taxid

第一步:打开网址https://www.ncbi.nlm.nih.gov/taxonomy/

第二步:输入物种名,例如输入human得到结果如下:

第三步:点击上图箭头所指链接,打开新页面后。观察地址栏最后的id=9606。其他物种可以通过类似的步骤获取其taxid

今天的分享就到这里,如果有什么问题请给我们留言吧!

0 人点赞