GWAS分析,QQ图和曼哈顿图是标配,可是这两个图具体是什么意思?怎么判断好坏,且听我一一道来。
QQ图和曼哈顿图是嘛意思?
GWAS分析中,会有一个结果,每个SNP的P值,可以根据这个值,以及SNP的染色体和物理位置,进行作图。
常见的图是QQ图和曼哈顿图。比如:
什么是QQ图
QQ图,全称quantile-quantile plot
,又称为「分位图」它是判断模型假阳性、假阴性的重要指标。
「为何要用QQ图来表示GWAS的结果呢?」
一般,我们认为,P值达到显著性,那就说明不同的SNP分型,对表型数据是有显著性影响的,但是在GWAS中,我们将显著的原因分为两个部分:
❝第一是自然选择(Selection),我这里所说的自然选择不仅指达尔文在《进化论》中所描述的物竞天择,还指所有对物种适应性有影响作用的“力量”,比如高辐射环境、疾病、病毒等,这也是我们在GWAS研究中真正关心的突变; 第二是遗传漂变(genetics drift),它是一种比较随机的基因组突变而且数量也不少,虽然也是物种演化的一种重要力量,但是由于它的突变都比较随机,目前认为它与环境的变迁没有必然联系,但也会在某些时候,有些随机的突变带来了生存优势,便会在种群中显示出它的作用。但绝大多数情况下,对于已经在群体中稳定存在的性状而言,并不认为它们有明显的作用,所以GWAS研究是不关心这一类突变的,我们要把它们全部排除掉。如果你发现自己得到的结果全部是这样的变异的话,那么,应该重新考虑一下如何重新设计这个分析,包括是否应该增加样本量以及想办法排除技术错误以及干扰因素等方面,或者也可能它们之间就是没有关系。 --https://zhuanlan.zhihu.com/p/59767114,知乎,碱基矿工❞
第一个部分,是由于突变导致的表型变异,比如AA变异了AT或者TT,导致产奶量增加,AA比如是10Kg,AT是15Kg,TT是20Kg,而且达到极显著水平,我们可以认为该突变导致产奶量变化,是我们关注的位点或者基因。GWAS的目的就是找到这样的位点,进而找到这样的基因。
第二个部分,是随机遗传漂变,它显示的统计显著性只是偶然,并不是该位点真的影响表型值。随机漂变,是随机在染色体上变化,它符合均匀分布,所以一定范围内有一定的概率。这些位点,是我们需要排除的。
QQ图的x坐标是均匀分布的值(理论值),经过-log10转换了。QQ图的y坐标实际的P值(观测值),经过-log10转换了。
「如果所谓的变异都是遗传漂变引起的:」
那就是这样一个图:横坐标和纵坐标都是在一条直线上,他们是完全一致的,因为X坐标是模拟的均匀分布的P值,而Y坐标是真实的P值,它与X一致,就说明它的分布也是均匀分布的,那我们就可以认为它是随机漂变的产物。
「如果所谓的变异都是遗传漂变引起 真实变异引起的:」
那它的图应该是这样的:刚开始的位点,比如-log10在3之前,都是和均匀分布是一致的,是随机漂变导致的。在大于3之后,均匀分布还是在直线上,但是由于随机漂变 真实位点的存在,开始偏离直线,并且上翘,这些上翘的位点就是我们关注的位点。
所以,好的GWAS分析,有结果的QQ图,都是前期在直线上,后面上翘。有点翘的QQ图才是好的QQ图。
什么是曼哈顿图
首先,曼哈顿是一个地名,是这样的:
因为建筑高低错落有致,我们将GWAS中不同染色体表示不同的位置,将不同SNP的P值比作不同的建筑,就会有种曼哈顿夜景的感觉:
「好的曼哈顿图:」
GWAS分析中,原理就是SNP位点和控制性状的基因存在LD状态,即SNP的分型可以代表基因的不同分型,所以,真实的显著位点应该是在基因两侧分布的,有一个上升和下降的趋势,比如这样的图:
「坏的曼哈顿图:」
只有孤零零的一个点,周围没有显著的点,这很有可能是假阳性,因为GWAS分析和培育品种是类似的:一出出一窝!
下一章介绍,GWAS可视化实操,毕竟,只知道qqman,而不知道cmplot,是不专业的。