和卡方检验类似,费舍尔精确检验同样也是分析两个分类变量关联性的假设检验,适用于样本个数很小的情况。在卡方检验中,对应的统计量只有在样本数量足够大的情况下才符合卡方分布,所以卡方分布中做了近似处理,近似认为对应的统计量服从卡方分布,而费舍尔精确检验在分析对应的p值时没有做任何的近似处理,所以称其计算出来的p值很精确。
费舍尔精确检验的核心思想是利用超几何分布来计算对应事件发生的概率,首先来了解下超几何分布。超几何分布,英文如下
hypergeometric distribution
其模型是不放回的抽样,假定在N个小球中含有M个红球,其他为黑球,随机从其中抽取n个小球,其中包含K个红球的概率如下
通过排列的思想可以很轻松的看懂上述公式,上述公式又可以写成如下格式
对于一个2X2的分类数据,示意如下
费舍尔精确检验的公式如下
和超几何分布的计算公式对比就可以看出,费舍尔精确检验将数据分布看做是一个不放回抽样的结果,在进行假设检验时,还需要选择单边检验还是双边检验的问题。超几何分布是一个离散型的分布,其概率分布对应的折线图示意如下
上图所示的红线代表的是临界值点,如果是左侧检验,直接选择临界值左侧的所有事件,将其概率相加,如果是右侧检验,直接选择临界值右侧的所有事件,将其概率相加。对于双边检验,模型如下
可以看到,对于某个临界值而言,比如最常见的0.05, 在左右两侧各有一段概率小于该阈值的区域,如果选择双边检验,需要将这两个区域对应的所有事件的概率相加。
对于如下所示的allel分布
Allele | A | a |
---|---|---|
Case | 30 | 15 |
Control | 28 | 12 |
在R中的计算过程如下
通过超几何分布可以也可以计算出费舍尔精确检验对应的p值,过程如下
费舍尔精确检验计算的p值更加精准,而且适合小样本量的情况,在关联分析中广泛使用。
·end·