vcf格式是做变异(variant)分析的时候最常见的一种格式,主要包括一些header和位点的信息。可以参考这个说明文档学习:https://www.internationalgenome.org/wiki/Analysis/vcf4.0/
以下以GIAB中的GM12878的数据为例(ftp://ftp-trace.ncbi.nlm.nih.gov/giab/ftp/release/NA12878_HG001/latest/GRCh38/ ),看一下其中的变异信息。
header前面都有"#"开头,开始包含vcf的版本信息,代码信息,染色体的长度信息等 (只截了一部分)。
header
位点信息:
variant information
也可能是这样:
another example
第一列 CHROM:染色体。 第二列 POS:基因组位置。 第三列 ID:变异位点的rsID号,如果没有的话用"."表示。 第四列 REF:与参考基因组一样的位点。 第五列 ALT:与参考基因组不一样的位点。 第六列 QUAL:call出这个位点的质量。这个值等于-10log10(p),p值是call错alt allele错误的概率。也就是QUAL越大出错概率越小。 第七列 FILTER:对变异位点进行过滤,如果通过则为PASS,如果没有进行过滤就是"."。 第八列 INFO:这一列是额外信息。可能是像第一个图一样是平台的信息,也可以是像是第二个中的DP等的信息:
INFO
第九列 FORMAT:最后是比较让人注意的Genotype也就是基因型等的信息,比较重要的是GT,DP和AD:
GT,即genotype,表示为0/1, 1/1, 0/0或者是0|1, 1|0, 0|0, 1|2等。其实0代表REF allele,1代表第一个ALT allele,2代表第二个ALT allele。比如第四列REF是A,第五列ALT是C,T(有两个ALT)。某个人是A/C,那么基因型就是0/1,A/T的话就是0/2,C/C就是1/1,以此类推。此外还可能见到0|1或者1|1中间是竖线不是斜线的情况,这种是已经phased的genotype,也就是已经知道REF/ALT allele是来自于父亲还是母亲了。比如有的数据库的phased的数据是|前的是父亲的allele,|后的是母亲的allele。比如REF是A,ALT是C,T;基因型为1|0,则父亲是第一个ALT也就是C,母亲是REF也就是A。不过对于有的phased数据而言第一个并不一定是父亲。
DP:这个位点的深度。
AD: REF和ALT allele的深度。太浅的话结果Genotype可能不这么让人信服。
最后是sample的信息,如例子中只有HG001,也就是GM12878。
欢迎关注公众号!
生信编程日常