VCF是Variant Call Format的简称,是一种定义的专门用于存储基因序列突变信息的文本格式。在生物信息分析中会大量用到VCF格式。例如基因组中的单碱基突变,SNP, 插入/缺失INDEL, 拷贝数变异CNV,和结构变异SV等,都是利用VCF格式来存储的。将其存储为二进制格式就是BCF。
VCF文件包括了两部分
第一部分是#开头的注释行称为header
包括版本信息,物种,生成这个文件所使用的命令,参考基因组信息等。
第二部分是以TAB分割的列称为records,前7列必须存在,可以用.
表示空值
第1列:CHROM
chromosome;染色体名称或contig名称;
第2列:POS
position;参考基因组突变碱基位置,如果是INDEL,位置是INDEL的第一个碱基位置;
第3列:ID
dentifier; 突变的名称,比如dbSNP的名字
第4列:REF
reference base(s);参考染色体的碱基
第5列:ALT
alternate base(s; 与参考序列比较,发生突变的碱基,可以有多个值,每个值用逗号分隔
第6列:QUAL
quality;Phred标准下的质量值,表示该变异位点的可靠性,可以理解为所call出来的变异位点的质量值。Q=-10lgP,Q表示质量值;P表示这个位点发生错误的概率。因此,如果想把错误率从控制在90%以上,P的阈值就是1/10,那lg(1/10)=-1,Q=(-10)*(-1)=10。同理,当Q=20时,错误率就控制在了0.01。
第7列:FILTER
filter status;使用其它的方法进行过滤后得到的过滤结果,可以是 PASS 或 FAIL或者空值用.
表示没有经过过滤
第8列:INFO
用于存储附加信息,例如变异类型、覆盖深度、突变频率等
比如MQ=99.00;MQ0=0;QD=17.94
表示这个指标的值
第9列:FORMAT
表示各个样本的值的名字
代码语言:Python复制GT:AD:DP:GQ:PL
- GT (GeneType)基因型,代表此样本在此位点携带的两个等位基因,主要分为一下几种情况:
0/0 :纯合; REF一致undefined0/1 :杂合; 一个ALT一个REF
1/1 :纯合; 两个都是ALT
- AD :覆盖到REF和ALT的碱基reads数、及测序深度,使用
,
” 隔开 (REF,ALT) - DP(Read Depth) :覆盖到这个位点的总reads数,及AD中的两数之和
- GQ :最可能GT的质量值
- PL: 对应3个以逗号隔开的值,GT的似然值(L)
0/0,0/1,1/1基因型,这三种的概率之和为1 L值越小,这个基因型的概率则越大,当L=0时,概率为1
P = 10^ (-L/10)
理想的情况下是三个值中1个很小,其他两个很大
第10列以后:样本名
每列是一个样本对应于第9列中的值,用:
分割,当有多个值时用,
分割
举个例子
CHROM=chr1:一号染色体
POS=13649:13649处
REF=G:参考基因组上13649处的碱基为G
ALT=C:所有样本中基因组上13649处可能发生的突变为C,有的样本突变,有的样本没有突变
QUAL=54.75:质量较高,错误率较低、
FILTER=.:没有过滤
INFO=...:GATK得出的一些分数可以用于过滤
对于SRR24302402样本
GT=0/1:基因型为G/C
AD=12,4:覆盖到REF的reads数为12,覆盖到ALT的reads数为4
DP=16:覆盖到13649位点的reads数为16=12 4
GQ=64:GT=0/1(即基因型为G/C)时的质量值为64
PL=64,0,281:最有可能的GT是0/1(即基因型为G/C),对应PL值为0,概率为1
代码语言:Python复制#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT SRR24302402 SRR24302403 SRR24302404 SRR24302405
chr1 13649 . G C 54.75 . AC=1;AF=0.125;AN=8;BaseQRankSum=3.28;DP=69;ExcessHet=0.0000;FS=0.000;MLEAC=1;MLEAF=0.125;MQ=22.78;MQRankSum=1.19;QD=3.42;ReadPosRankSum=-3.040e-01;SOR=0.138 GT:AD:DP:GQ:PL 0/1:12,4:16:64:64,0,281 0/0:15,0:15:45:0,45,606 0/0:20,0:20:60:0,60,774 0/0:17,0:17:51:0,51,679
Reference
代码语言:Python复制https://gatk.broadinstitute.org/hc/en-us/articles/360035531692-VCF-Variant-Call-Format
https://genome.ucsc.edu/FAQ/FAQformat.html
https://ngdc.cncb.ac.cn/gsa-human/browse/HRA001232
https://www.cnblogs.com/daimakun/p/5056813.html