迄今为止,全基因组关联研究(以下简称GWAS)发展已有二十多年了。这二十多年间,随着样本数的越来越大以及基因芯片的物美价廉,GWAS也得到了更多的发展,科学家们发现了大量和人类疾病以及其它表型相关联的基因,在此基础上,GWAS还推动了孟德尔随机化和多基因风险评分的发展与应用。可以说,GWAS是现代遗传学的重要组成部分,也有人戏称Nature Genetics为Nature GWAS。
第一部分:Sequencing
Sequencing就是指测序,一般GWAS使用的都是基因芯片(chip is cheap),芯片上排列着大量已经设计好的SNP 位点(SNP array),一般可以有上百万个。注意了,由于同一SNP在不同人种中的频率可能相差很大,所以针对特定人种进行全基因组测序一般使用特制的芯片。比如,英国生物银行(UK Biobank)主要使用UK Biobank Axiom array这款自制芯片测了约45万人,而针对亚洲人一般使用Illumina Asian Screening Array 这款芯片(Illumina是基因芯片公司)。因此,如果想自己测序,一定要选好合适的芯片。测完序并经过配套软件处理后我们通常会得到原始的测序数据。
第二部分:SNP calling
拿到原始测序后(多为FASTQ格式),我们就需要对庞大的数据进行处理,这里最关键的就是质控,如果质控不过关,那么得出的结果也是不可靠的。这一步我们通常按照GATK的推荐流程进行即可,不是很复杂,但是新手会碰到很多bug,大家做好心理准备。做完SNP calling后我们可以得到vcf(Variant Call Format)格式文件。
第三部分:Association analysis
对于vcf文件,我们可以使用vcftools这个软件将其转化为PLINK格式的二进制文件,数据特别大的时候可以存储为BGEN格式(UK Biobank使用的就是BGEN格式)。这里我们默认大家拥有PLINK格式或者BEGN格式的数据了,在进行关联分析之前,我们可以使用qctools这个软件来对数据进行质控(PLINK个GCTA软件也可进行质控)。在完成质控后,我们就可以使用PLINK或者GCTA软件进行关联分析了,最后我们会得到单个SNP与表型的关联结果,也就是进行MR分析时需要的summary statistics。
如果SNP array得到的位点数太少,这时候我们是需要进行基因填充的(imputation),一般使用IMPUTE2这个软件,它可以依据参考基因组的信息推断出那些不在芯片上的位点在人群中的分布情况,这样原来只有100万个SNP位点的芯片数据经过填充后可能有超过1000万个位点信息。
关于GWAS的简介就先讲到这里,后续会和大家详细介绍GWAS的内容。另外,这篇内容是我依据经验写出来,以期能让大家对GWAS有个初步了解,不足之处还望大家指正。