GFF文件格式简介

2020-05-08 16:39:53 浏览数 (2)

欢迎关注”生信修炼手册”!

鉴于代码的排版问题,建议在电脑上阅读本文。

组装得到基因组的序列只是开展基因组研究的第一步,基因的结构是基因组后续功能研究的基石。在NCBI中,除了提供基因组序列外,还提供了基因结构的信息,采用的就是GFF格式。human示例如下

GFF全称Generic Feature Format, 描述了基因组上各种特征的区间信息,包括染色体,基因,转录本等。GFF文件本质上是一个t分隔的,共9列的纯文本文件。

1. column1

第一列是seqid, 代表序列ID, 通常是染色体的ID, 每条染色体拥有一个唯一的ID。

2. column2

第二列是source, 代表基因结构的来源,可以是数据库的名称,比如来自genebank数据库,也可以是软件的名称,比如用GeneScan软件预测得到,当然,也可以为空,用.点号填充。

3. column3

第三列是type, 代表区间对应的特征类型,比如gene, exon等。

4. column4

第四列是start, 代表区间的起始位置。

5. column5

第四列是end, 代表区间的终止位置。

6. column6

第六列是score, 软件提供了统计值,如果没有,就用.填充。

7. column7

第七列是strand, 代表正负链的信息, 表示正链,-表示负链,?表示不清楚正负链的信息,当正负链信息没有意义时,可以用.填充。

8. column8

第八列是phase,当描述的是CDS区间信息时,需要指定翻译时开始的位置,取值范围包括0,1,2。

9. column9

第九列是attributes, 表示属性,每种属性采用key=value 的形式,多个属性之间用;分号分隔。

下面看下NCBI提供的human的GFF文件,链接如下

代码语言:javascript复制
ftp://ftp.ncbi.nlm.nih.gov/genomes/H_sapiens/GFF/ref_GRCh38.p12_top_level.gff3.gz

在GFF文件的开头,可以有#开头的注释行,示例如下

代码语言:javascript复制
##gff-version 3
#!gff-spec-version 1.21
#!processor NCBI annotwriter
#!genome-build GRCh38.p12
#!genome-build-accession NCBI_Assembly:GCF_000001405.38
#!annotation-date 26 March 2018
#!annotation-source NCBI Homo sapiens Annotation Release 109
##sequence-region NC_000001.11 1 248956422
##species https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=9606

对于不同的基因组特征,其属性不同。

1. 染色体

染色体用region表示,1号染色体对应的信息如下

代码语言:javascript复制
NC_000001.11    RefSeq    region    1    248956422    .         .    ID=id0;Dbxref=taxon:9606;Name=1;chromosome=1;gbkey=Src;genome=chromosome;mol_type=genomic DNA

染色体是基础,后续的基因,exon等都是需要定位在染色体上的。

2. 非编码基因

对于非编码基因,首先给出基因的起始和终止位置,然后描述转录本的信息。对于转录本而言, 通过exon展示其结构。

假基因示例如下

代码语言:javascript复制
NC_000001.11    BestRefSeq    pseudogene    11874    14409    .         .    ID=gene0;Dbxref=GeneID:100287102,HGNC:HGNC:37102;Name=DDX11L1;description=DEAD/H-box helicase 11 like 1;gbkey=Gene;gene=DDX11L1;gene_biotype=transcribed_pseudogene;pseudo=true
NC_000001.11    BestRefSeq    transcript    11874    14409    .         .    ID=rna0;Parent=gene0;Dbxref=GeneID:100287102,Genbank:NR_046018.2,HGNC:HGNC:37102;Name=NR_046018.2;gbkey=misc_RNA;gene=DDX11L1;product=DEAD/H-box helicase 11 like 1;transcript_id=NR_046018.2
NC_000001.11    BestRefSeq    exon    11874    12227    .         .    ID=id1;Parent=rna0;Dbxref=GeneID:100287102,Genbank:NR_046018.2,HGNC:HGNC:37102;gbkey=misc_RNA;gene=DDX11L1;product=DEAD/H-box helicase 11 like 1;transcript_id=NR_046018.2
NC_000001.11    BestRefSeq    exon    12613    12721    .         .    ID=id2;Parent=rna0;Dbxref=GeneID:100287102,Genbank:NR_046018.2,HGNC:HGNC:37102;gbkey=misc_RNA;gene=DDX11L1;product=DEAD/H-box helicase 11 like 1;transcript_id=NR_046018.2
NC_000001.11    BestRefSeq    exon    13221    14409    .         .    ID=id3;Parent=rna0;Dbxref=GeneID:100287102,Genbank:NR_046018.2,HGNC:HGNC:37102;gbkey=misc_RNA;gene=DDX11L1;product=DEAD/H-box helicase 11 like 1;transcript_id=NR_046018.2

tRNA基因示例如下

代码语言:javascript复制
NC_000010.11    tRNAscan-SE    gene    67764503    67764584    .         .    ID=gene28271;Dbxref=GeneID:100189279,HGNC:HGNC:34845;Name=TRS-TGA1-1;gbkey=Gene;gene=TRS-TGA1-1;gene_biotype=tRNA
NC_000010.11    tRNAscan-SE    tRNA    67764503    67764584    .         .    ID=rna83632;Parent=gene28271;Dbxref=GeneID:100189279,HGNC:HGNC:34845;Note=transfer RNA-Ser (TGA) 1-1;anticodon=(pos:67764536..67764538);gbkey=tRNA;gene=TRS-TGA1-1;inference=COORDINATES: profile:tRNAscan-SE:1.23;product=tRNA-Ser
NC_000010.11    tRNAscan-SE    exon    67764503    67764584    .         .    ID=id1011659;Parent=rna83632;Dbxref=GeneID:100189279,HGNC:HGNC:34845;Note=transfer RNA-Ser (TGA) 1-1;anticodon=(pos:67764536..67764538);gbkey=tRNA;gene=TRS-TGA1-1;inference=COORDINATES: profile:tRNAscan-SE:1.23;product=tRNA-Ser

miRNA基因示例如下

代码语言:javascript复制
NC_000001.11    BestRefSeq    gene    17369    17436    .    -    .    ID=gene2;Dbxref=GeneID:102466751,HGNC:HGNC:50039,miRBase:MI0022705;Name=MIR6859-1;description=microRNA 6859-1;gbkey=Gene;gene=MIR6859-1;gene_biotype=miRNA;gene_synonym=hsa-mir-6859-1
NC_000001.11    BestRefSeq    primary_transcript    17369    17436    .    -    .    ID=rna2;Parent=gene2;Dbxref=GeneID:102466751,Genbank:NR_106918.1,HGNC:HGNC:50039,miRBase:MI0022705;Name=NR_106918.1;gbkey=precursor_RNA;gene=MIR6859-1;product=microRNA 6859-1;transcript_id=NR_106918.1
NC_000001.11    BestRefSeq    exon    17369    17436    .    -    .    ID=id15;Parent=rna2;Dbxref=GeneID:102466751,Genbank:NR_106918.1,HGNC:HGNC:50039,miRBase:MI0022705;gbkey=precursor_RNA;gene=MIR6859-1;product=microRNA 6859-1;transcript_id=NR_106918.1
NC_000001.11    BestRefSeq    miRNA    17369    17391    .    -    .    ID=rna3;Parent=rna2;Dbxref=GeneID:102466751,miRBase:MIMAT0027619,HGNC:HGNC:50039,miRBase:MI0022705;gbkey=ncRNA;gene=MIR6859-1;product=hsa-miR-6859-3p
NC_000001.11    BestRefSeq    exon    17369    17391    .    -    .    ID=id16;Parent=rna3;Dbxref=GeneID:102466751,miRBase:MIMAT0027619,HGNC:HGNC:50039,miRBase:MI0022705;gbkey=ncRNA;gene=MIR6859-1;product=hsa-miR-6859-3p
NC_000001.11    BestRefSeq    miRNA    17409    17431    .    -    .    ID=rna4;Parent=rna2;Dbxref=GeneID:102466751,miRBase:MIMAT0027618,HGNC:HGNC:50039,miRBase:MI0022705;gbkey=ncRNA;gene=MIR6859-1;product=hsa-miR-6859-5p
NC_000001.11    BestRefSeq    exon    17409    17431    .    -    .    ID=id17;Parent=rna4;Dbxref=GeneID:102466751,miRBase:MIMAT0027618,HGNC:HGNC:50039,miRBase:MI0022705;gbkey=ncRNA;gene=MIR6859-1;product=hsa-miR-6859-5p

一个miRNA基因的最终会形成两个成熟的miRNA。

lncRNA基因示例如下

代码语言:javascript复制
NC_000001.11    Gnomon    gene    29926    31295    .         .    ID=gene3;Dbxref=GeneID:107985730,HGNC:HGNC:52482;Name=MIR1302-2HG;gbkey=Gene;gene=MIR1302-2HG;gene_biotype=lncRNA
NC_000001.11    Gnomon    lnc_RNA    29926    31295    .         .    ID=rna5;Parent=gene3;Dbxref=GeneID:107985730,Genbank:XR_001737835.1,HGNC:HGNC:52482;Name=XR_001737835.1;gbkey=ncRNA;gene=MIR1302-2HG;model_evidence=Supporting evidence includes similarity to: 100% coverage of the annotated genomic feature by RNAseq alignments, including 8 samples with support for all annotated introns;product=MIR1302-2 host gene;transcript_id=XR_001737835.1
NC_000001.11    Gnomon    exon    29926    30039    .         .    ID=id18;Parent=rna5;Dbxref=GeneID:107985730,Genbank:XR_001737835.1,HGNC:HGNC:52482;gbkey=ncRNA;gene=MIR1302-2HG;product=MIR1302-2 host gene;transcript_id=XR_001737835.1
NC_000001.11    Gnomon    exon    30564    30667    .         .    ID=id19;Parent=rna5;Dbxref=GeneID:107985730,Genbank:XR_001737835.1,HGNC:HGNC:52482;gbkey=ncRNA;gene=MIR1302-2HG;product=MIR1302-2 host gene;transcript_id=XR_001737835.1
NC_000001.11    Gnomon    exon    30976    31295    .         .    ID=id20;Parent=rna5;Dbxref=GeneID:107985730,Genbank:XR_001737835.1,HGNC:HGNC:52482;gbkey=ncRNA;gene=MIR1302-2HG;product=MIR1302-2 host gene;transcript_id=XR_001737835.1
3. 蛋白编码基因

对于蛋白编码基因,在非编码基因的基础上,多出了CDS的信息。示例如下

代码语言:javascript复制
NC_000010.11    BestRefSeq,Gnomon    gene    35126830    35212958    .         .    ID=gene27850;Dbxref=GeneID:1390,HGNC:HGNC:2352,MIM:123812;Name=CREM;description=cAMP responsive element modulator;gbkey=Gene;gene=CREM;gene_biotype=protein_coding;gene_synonym=CREM-2,hCREM-2,ICER
NC_000010.11    BestRefSeq    mRNA    35126841    35179847    .         .    ID=rna82191;Parent=gene27850;Dbxref=GeneID:1390,Genbank:NM_001881.3,HGNC:HGNC:2352,MIM:123812;Name=NM_001881.3;gbkey=mRNA;gene=CREM;product=cAMP responsive element modulator, transcript variant 2;transcript_id=NM_001881.3
NC_000010.11    BestRefSeq    exon    35126841    35127193    .         .    ID=id995818;Parent=rna82191;Dbxref=GeneID:1390,Genbank:NM_001881.3,HGNC:HGNC:2352,MIM:123812;gbkey=mRNA;gene=CREM;product=cAMP responsive element modulator, transcript variant 2;transcript_id=NM_001881.3
NC_000010.11    BestRefSeq    exon    35148368    35148491    .         .    ID=id995819;Parent=rna82191;Dbxref=GeneID:1390,Genbank:NM_001881.3,HGNC:HGNC:2352,MIM:123812;gbkey=mRNA;gene=CREM;product=cAMP responsive element modulator, transcript variant 2;transcript_id=NM_001881.3
NC_000010.11    BestRefSeq    exon    35178889    35178986    .         .    ID=id995820;Parent=rna82191;Dbxref=GeneID:1390,Genbank:NM_001881.3,HGNC:HGNC:2352,MIM:123812;gbkey=mRNA;gene=CREM;product=cAMP responsive element modulator, transcript variant 2;transcript_id=NM_001881.3
NC_000010.11    BestRefSeq    exon    35179134    35179847    .         .    ID=id995821;Parent=rna82191;Dbxref=GeneID:1390,Genbank:NM_001881.3,HGNC:HGNC:2352,MIM:123812;gbkey=mRNA;gene=CREM;product=cAMP responsive element modulator, transcript variant 2;transcript_id=NM_001881.3
NC_000010.11    BestRefSeq    CDS    35148372    35148491    .         0    ID=cds57086;Parent=rna82191;Dbxref=CCDS:CCDS7184.1,GeneID:1390,Genbank:NP_001872.3,HGNC:HGNC:2352,MIM:123812;Name=NP_001872.3;Note=isoform 2 is encoded by transcript variant 2;gbkey=CDS;gene=CREM;product=cAMP-responsive element modulator isoform 2;protein_id=NP_001872.3
NC_000010.11    BestRefSeq    CDS    35178889    35178986    .         0    ID=cds57086;Parent=rna82191;Dbxref=CCDS:CCDS7184.1,GeneID:1390,Genbank:NP_001872.3,HGNC:HGNC:2352,MIM:123812;Name=NP_001872.3;Note=isoform 2 is encoded by transcript variant 2;gbkey=CDS;gene=CREM;product=cAMP-responsive element modulator isoform 2;protein_id=NP_001872.3
NC_000010.11    BestRefSeq    CDS    35179134    35179329    .         1    ID=cds57086;Parent=rna82191;Dbxref=CCDS:CCDS7184.1,GeneID:1390,Genbank:NP_001872.3,HGNC:HGNC:2352,MIM:123812;Name=NP_001872.3;Note=isoform 2 is encoded by transcript variant 2;gbkey=CDS;gene=CREM;product=cAMP-responsive element modulator isoform 2;protein_id=NP_001872.3

需要注意是,由于可变剪切的存在,一个蛋白编码基因可能会有多个转录本。

·end·

—如果喜欢,快分享给你的朋友们吧—

0 人点赞