GATK 是 Genome Analysis ToolKit 的缩写,是一款从高通量测序数据中分析变异信息的软件,是目前最主流的 snp calling 软件之一。GATK 设计之初是用于分析人类的全外显子和全基因组数据,随着不断发展,现在也可以用于其他的物种,还支持 CNV 和 SV 变异信息的检测。在官网上,提供了完整的分析流程,叫做 GATK Best Practices。
GATK 变异检测,从 fastq 到 vcf
目前最新版本文为 4.0.4.0, 叫做 GATK4。和之前的版本相比,GATK4 在算法上进行了优化,运行速率有所提高,而且整合了 picard 软件的功能。GATK4 基于 java 语言开发的,需要 java1.8 版本。下载链接如下
代码语言:javascript复制https://github.com/broadinstitute/gatk
GATK4 的最佳实践给出了 5 套 pipeline
1、Germline SNPs Indels
2、Somatic SNVs Indels
3、RNAseq SNPs Indels
4、Germline CNVs
5、Somatic CNVs