GWAS大家都知道,Gene-Based GWAS你了解吗?

2019-12-19 11:46:02 浏览数 (1)

GWAS称之为全基因组关联分析,传统意义上的GWAS针对单个SNP位点进行分析,来寻找与疾病或者性状相关联的SNP位点。在过去的几十年,依托高通量基因分型技术的快速发展,GWAS广泛应用于很多复杂疾病和性状的研究中,取得了不错的进展。

然而SNP水平的GWAS分析还存在着一些问题,通常情况下我们根据经验阈值,比如1X10-6,5X10-8来筛选统计学显著的SNP位点,这样的做法会过滤到很多p值不够小,即关联效应较弱的基因。对于复杂疾病而言,其易感基因往往是很多关联效用较弱的微效基因构成,这样的筛选方式会漏掉很多重要的信息。

为此,科学家们尝试在更高水平整合SNP GWAS分析的结果,以提高GWAS检验的效能,常见的有以下两种水平

  1. gene
  2. gene-set

第一个为基因水平,综合考虑某个基因上多个SNP位点的关联分析结果,来计算该基因与疾病的关联性;第二种为基因集水平,也可以称之为pathway水平,是基因水平的进阶,考虑了基因生物学功能的关联性,站在生物学功能的角度来研究突变与疾病的关联性。通过这两种level的关联分析,可以更加有效的检测与疾病存在关联的基因或功能,而且这两种分析是建立在SNP GWAS水平的基础上的,这样方便我们对已有的GWAS分析结果进行二次分析,深入挖掘新的信息。

实现这两种分析有很多的算法,比如线性回归,逻辑回归等等,最好的办法就是使用别人已经开发好的成熟软件。MAGMA这款软件就可以实现上述两种水平的关联分析,官网如下

https://ctg.cncr.nl/software/magma

对于基因水平的关联分析,采用了多元线性回归模型, 首先对某个基因内所有SNP位点的基因型矩阵进行PCA分析,挑选其中的几个主成分作为回归分析的自变量,通过线性回归来分析与疾病的关联性;对于pathway水平的关联分析,则采用了self-contained的方法,示意如下

首先通过一个宽松的阈值,比如0.05来筛选某个基因上的候选SNP位点,在候选SNP位点的基础上,进一步通过严格的阈值来划分类别,比如5X10-8, 划分为显著和非显著两类。然后根据Alleles或者genotypes, 选择对应的模型来计算关联性。

该软件由于采用了线性回归模型,还可以在已有自变量的基础上,添加协变量和自变量的交互作用,进一步提高了检验效能,在后面文章中会详细介绍其用法。

0 人点赞