欢迎关注”生信修炼手册”!
从UCSC下载基因组的GTF文件有两种方式,一种是利用table browser 浏览器,另外一种是通过FTP服务。
1. Table Browser
Table Browser提供了一个检索和下载的入口,支持多种格式的下载,下载gtf文件只是其中一个功能,网址如下
http://genome.ucsc.edu/cgi-bin/hgTables
第一行的3个标签用于确定确定物种和版本。clade
提供了物种分类,包括以下类型
- Mammal 哺乳动物
- Vertebrate 脊椎动物
- Deuterostome 后口动物
- Insect 昆虫
- Nematode 线虫
- Viruses 病毒
- other 其他
从这里的类别也可以发现,UCSC主要提供了动物的基因组,如果想要下载植物基因组的相关文件,只能考虑NCBI,Ensembl了。根据clade
的类别,可以快速查找物种。genome
选择对应的物种名字,assembly
选择基因组版本。
group
用于选择文件保存信息的类型,提供了以下类型
- Mapping and Sequencing
- Genes and Gene Predictions
- Phenotype and Literature
- mRNA and EST
- Expression
- Regulation
- Comparative Genomics
- Variation
- Repeats
- All Tracks
- All Tables
GTF文件保存的是基因和转录本的结构信息,所以选择2,track
选择对应的数据库和版本,通常选择NCBI RefSeq
。
table
选择数据,对于NCBI RefSeq, 提供了如下选择
- RefSeq All
- RefSeq Curated
- RefSeq Predicted
- UCSC RefSeq
RefSeq All代表RefSeq中所有的转录本信息,RefSeq Curated代表核对过的数据,可信度较高,以NM
, NR
, YP
开头,RefSeq Predicted代表预测的数据,以XM
, XR
开头;UCSC RefSeq 代表所有以NM
, NR
开头的转录本信息。通常选择UCSC RefSeq
即可。
region
选择下载的区域,是选择整个基因组,还是只是染色体上的部分区域。
output format
选择输出文件格式,常用的有以下两种
- GTF(limited)
- BED
output file
指定输出文件的名字,如果不指定,默认会显示在浏览器中共,如果下载整个基因组的信息,建议填写输出文件的名字,file type returned
选择返回文件的格式,支持返回压缩文件。
通过简单的勾选,就可以下载到GTF文件了。但是这种方式下载的GTF文件是有限制的,只包含了转录本ID, 示例如下
代码语言:javascript复制chr1 hg38_refGene exon 11106531 11107500 0.000000 - . gene_id "NM_004958"; transcript_id "NM_004958";
转录本对应的基因名称时非常重要的信息,如果要解决这个问题,可以通过FTP服务器进行下载。
2. FTP
UCSC的FTP服务提供了物种的注释文件供下载,hg38的FTP地址如下
http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/
但是FTP中并没有直接提供bed12, gtf 格式的文件,因为这些格式存在冗余信息,文件大小会比较大。为例节省磁盘空间,UCSC提出来genePred
这种格式。这种格式每一行代表一个转录本信息,冗余信息较少。更多的介绍可以参考官方文档
https://genome.ucsc.edu/FAQ/FAQformat.html#format9
UCSC RefSeq这种信息对应的文件为refGene.txt.gz
, 对于该文件,需要借助UCSC官方提供的格式转换工具转换为gtf格式。UCSC提供了许多的工具,下载链接如下
http://hgdownload.soe.ucsc.edu/admin/exe/
其中genePredToGtf
就是把genepred格式转换为gtf格式的工具。使用方式如下
wget http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/refGene.txt.gz
gunzip refGene.txt.gz
cut -f 2- refGene.txt | genePredToGtf file stdin -source=hg38_Ref hg38.gtf
refGene.txt的第一列信息是多余的,删除之后,整个文件就是genePred
格式了。最终生成的文件如下
chr20 hg19_Ref exon 63865228 63865384 . . gene_id "TPD52L2"; transcript_id "NM_003288"; exon_number "1"; exon_id "NM_003288.1"; gene_name "TPD52L2";
可以看到,gene_id的信息是有了。但是还是有点不足之处,相比NCBI和Ensembl, UCSC提供的GTF文件中共缺少了gene_biotype的信息,无法确定基因类型。
·end·
—如果喜欢,快分享给你的朋友们吧—