基因序列变异信息VCF (Variant Call Format)

2023-05-23 08:59:31 浏览数 (1)

VCF是Variant Call Format的简称,是一种定义的专门用于存储基因序列突变信息的文本格式。在生物信息分析中会大量用到VCF格式。例如基因组中的单碱基突变,SNP, 插入/缺失INDEL, 拷贝数变异CNV,和结构变异SV等,都是利用VCF格式来存储的。将其存储为二进制格式就是BCF。

VCF文件包括了两部分

第一部分是#开头的注释行称为header

包括版本信息,物种,生成这个文件所使用的命令,参考基因组信息等。

第二部分是以TAB分割的列称为records,前7列必须存在,可以用.表示空值

第1列:CHROM

chromosome;染色体名称或contig名称;

第2列:POS

position;参考基因组突变碱基位置,如果是INDEL,位置是INDEL的第一个碱基位置;

第3列:ID

dentifier; 突变的名称,比如dbSNP的名字

第4列:REF

reference base(s);参考染色体的碱基

第5列:ALT

alternate base(s; 与参考序列比较,发生突变的碱基,可以有多个值,每个值用逗号分隔

第6列:QUAL

quality;Phred标准下的质量值,表示该变异位点的可靠性,可以理解为所call出来的变异位点的质量值。Q=-10lgP,Q表示质量值;P表示这个位点发生错误的概率。因此,如果想把错误率从控制在90%以上,P的阈值就是1/10,那lg(1/10)=-1,Q=(-10)*(-1)=10。同理,当Q=20时,错误率就控制在了0.01。

第7列:FILTER

filter status;使用其它的方法进行过滤后得到的过滤结果,可以是 PASS 或 FAIL或者空值用.表示没有经过过滤

第8列:INFO

用于存储附加信息,例如变异类型、覆盖深度、突变频率等

比如MQ=99.00;MQ0=0;QD=17.94表示这个指标的值

第9列:FORMAT

表示各个样本的值的名字

代码语言:Python复制
GT:AD:DP:GQ:PL
  • GT (GeneType)基因型,代表此样本在此位点携带的两个等位基因,主要分为一下几种情况:

0/0 :纯合; REF一致undefined0/1 :杂合; 一个ALT一个REF

1/1 :纯合; 两个都是ALT

  • AD :覆盖到REF和ALT的碱基reads数、及测序深度,使用, ” 隔开 (REF,ALT)
  • DP(Read Depth) :覆盖到这个位点的总reads数,及AD中的两数之和
  • GQ :最可能GT的质量值
  • PL: 对应3个以逗号隔开的值,GT的似然值(L)

0/0,0/1,1/1基因型,这三种的概率之和为1 L值越小,这个基因型的概率则越大,当L=0时,概率为1

P = 10^ (-L/10)

理想的情况下是三个值中1个很小,其他两个很大

第10列以后:样本名

每列是一个样本对应于第9列中的值,用:分割,当有多个值时用,分割

举个例子

CHROM=chr1:一号染色体

POS=13649:13649处

REF=G:参考基因组上13649处的碱基为G

ALT=C:所有样本中基因组上13649处可能发生的突变为C,有的样本突变,有的样本没有突变

QUAL=54.75:质量较高,错误率较低、

FILTER=.:没有过滤

INFO=...:GATK得出的一些分数可以用于过滤

对于SRR24302402样本

GT=0/1:基因型为G/C

AD=12,4:覆盖到REF的reads数为12,覆盖到ALT的reads数为4

DP=16:覆盖到13649位点的reads数为16=12 4

GQ=64:GT=0/1(即基因型为G/C)时的质量值为64

PL=64,0,281:最有可能的GT是0/1(即基因型为G/C),对应PL值为0,概率为1

代码语言:Python复制
#CHROM  POS     ID      REF     ALT     QUAL    FILTER  INFO    FORMAT  SRR24302402     SRR24302403     SRR24302404     SRR24302405
chr1    13649   .       G       C       54.75   .       AC=1;AF=0.125;AN=8;BaseQRankSum=3.28;DP=69;ExcessHet=0.0000;FS=0.000;MLEAC=1;MLEAF=0.125;MQ=22.78;MQRankSum=1.19;QD=3.42;ReadPosRankSum=-3.040e-01;SOR=0.138          GT:AD:DP:GQ:PL  0/1:12,4:16:64:64,0,281 0/0:15,0:15:45:0,45,606 0/0:20,0:20:60:0,60,774 0/0:17,0:17:51:0,51,679

Reference

代码语言:Python复制
https://gatk.broadinstitute.org/hc/en-us/articles/360035531692-VCF-Variant-Call-Format
https://genome.ucsc.edu/FAQ/FAQformat.html
https://ngdc.cncb.ac.cn/gsa-human/browse/HRA001232
https://www.cnblogs.com/daimakun/p/5056813.html

0 人点赞