卡方检验(chi-squared test)是一种统计方法,用于确定观察到的频数和预期频数之间是否存在显著差异。它通常用于比较两个或多个分类变量之间的关系, 本文介绍相关内容。
简介
卡方检验是一种统计方法,用于确定观察到的数据与期望的数据之间是否存在显著差异。它通常用于分析两个或多个分类变量之间的关联性。
卡方检验基于观察到的频数和期望频数之间的差异来判断变量之间的关联程度。它的基本思想是,如果观察到的频数与期望频数之间的差异较大,那么就可能存在显著的关联。卡方检验计算出一个卡方值,然后将该值与自由度为 (r-1) (c-1) 的卡方分布进行比较,其中 r 是行数,c 是列数。
卡方检验常用于以下情况:
- 检验两个分类变量之间是否存在关联性,例如性别和吸烟习惯之间的关联性。
- 检验一个分类变量在不同组之间的分布差异,例如不同年龄组中的偏好。
- 检验观察到的数据与期望的理论分布之间的差异,例如检验一个骰子是否均匀。
在卡方检验中,如果计算得到的卡方值显著大于临界值,就可以拒绝原假设,即认为变量之间存在关联或差异。反之,如果卡方值不显著,则不拒绝原假设,即认为变量之间没有关联或差异。
常用的表示卡方检验的符号是:χ²,通常配合p值来进行结果解释。
卡方分布有多种检验应用,最常用的莫过于 Pearson卡方检验
基础概念
实际频数
卡方检验核心可以理解为判断两个分布之间有多大关系,用于描述分布的只能依靠采样的样本,那么样本如何表示分布呢,用的就是频数。
将分布的值域拆分为若干个互斥的 bin,统计采样中每个 bin 发生的次数,就是实际频数,一般用 O( Observation ) 表示。
虚无假设
“皮尔森卡方检定”的虚无假设(H_0 )是:一个样本中已发生事件的次数分配会遵守某个特定的理论分配。
在虚无假设的句子中,“事件”必须互斥,并且所有事件总机率等于1。或者说,每个事件是类别变数(英语:categorical variable)的一种类别或级别(英语:level)。
简单的例子:常见的六面骰子,事件=丢骰子的结果(可能是1~6任一个)属于类别变数,每一面都是此变数的一种(一个级别)结果,每种结果互斥(1不是2, 3, 4, 5, 6; 2不是1, 3, 4 …),六面的机率总和等于1。
期望频数
卡方分布判断两个分布之间的关系,基本逻辑是先做出假设,之后的统计量推算按照假设为真的方式进行,如果之后发现按照该假设得到的结论发生的可能性很低,则拒绝该假设。总体算下来有点类似数学中的反证法。
这其中,做出基本假设之后,两个分布之间会有一个假设的关系,那么按照这个假设就可以推算出理论上每个 bin 发生的次数,也就是期望频数,一般用 E( Expectation ) 表示。
卡方检验用的就是这个期望频数和实际频数之间相差多少来判定是否拒绝假设的。
显著性水平
定义根据假设推到出的结论是否“靠谱”,根据假设和样本,我们可以计算出在某个自由度下卡方统计量的值,这个值如果是落在“小概率”事件区间内则拒绝假设,那么如何定义小概率事件,多小的概率算得上小概率?这就是显著性水平,一般取 0.1 0.05 0.01 等,一般用字母 alpha 表示,也就是说在假设前提下发生样本所推导出的事情的概率低于 alpha ,我们判定为小概率事件。
列联表
两个分布,分别划分了互斥的 bin,将样本联合分布发生的实际次数填入一个二维表中,这个表就是列联表。
用途
两种“皮尔森卡方检定”的常用的比较情境:拟合度检验和独立性检定。
- “适配度检定”验证一组观察值的次数分配是否异于理论上的分配,也称作" 分类变量的比较检验 "。
- “独立性检定”验证从两个变数抽出的配对观察值组是否互相独立(例如:每次都从A国和B国各抽一个人,看他们的反应是否与国籍无关)。
步骤
- 计算卡方检定的统计值 chi ^{2} :把每一个观察值和理论值的差做平方后、除以理论值、再加总。
- 计算 chi ^{2} 统计值的自由度 df 。
- 依据研究者设定的置信水平(显著性水平、P值或对应Alpha值),查出自由度为 df 的卡方分配临界值,比较它与第1步骤得出的 chi ^{2} 统计值,推论能否拒绝虚无假说。
Pearson卡方检验(Pearson’s chi squared test)
皮尔森卡方检定,由著名统计学家Karl Pearson提出, 是最有名卡方检定之一(其他常用的卡方检定还有叶氏连续校正、似然比检定、一元混成检验等等--它们的统计值之机率分配都近似于卡方分配,故称卡方检定)。 科学文献中,当提及卡方检定而没有特别指明类型时,通常即指皮尔森卡方检定。
该检验方法广泛应用于分类变量(categorical data)的独立性检验中,也可用于分类变量的比较检验中。这两种检验都需要用到R×C列联表(R×C contingency table),其中R表示行(Row),C表示列(Column)。本文只讨论行列变量都是无序变量的情形,最简单的情形是行与列都是二分类无序变量,这样的数据也称为四格表资料。
列联表要求
- 样本来自简单随机抽样;
- 各个格子是相互独立的;
- 样本量应尽可能大。总观察数应不小于40,且每个格子的频数应大于等于5;
- 依据样本数据计算出的理论频数应不小于5。
分类变量的比较检验
定义: 主要使用样本数据检验总体分布形态或比例的假说。测验决定所获得的的样本比例与虚无假设中的总体比例的拟合程度如何。
例:对于分类变量的比较检验,如下例,某种癌症化疗只有两种疗法:单纯化疗和复合化疗,且没有顺序;其疗效只有缓解和未缓解两类,且没有顺序,现要根据样本数据检验这两种化疗疗效有无差异:
疗法疗效 | 缓解 | 未缓解 | 总和 |
---|---|---|---|
单纯化疗 | $a$ | $b$ | $a b$ |
复合化疗 | $c $ | $d$ | $c d$ |
总和 | $a c$ | $b d$ | $n$ |
原假设和备择假设:
H_0 :两种治疗方法无差异。 H_1 :两种治疗方法存在差异。
分类变量的独立性检验
检验两个变量分布是否相互独立。
例:从某总体中经过简单随机抽样获得的频数数据,性别只分男女两类,且没有顺序;研究色盲问题时只有色盲和正常两类,也没有顺序,现要根据样本数据检验色盲与性别是否独立(也即色盲与性别有无关系):
性别视觉 | 正常 | 色盲 | 总和 |
---|---|---|---|
男 | $a$ | $b$ | $a b$ |
女 | $c $ | $d$ | $c d$ |
总和 | $a c$ | $b d$ | $n$ |
原假设和备择假设:
H_ 0 :色盲与性别无关。 H_1 :性别与色盲有关。
计算卡方统计量
上述场景都需要用同样方法计算卡方统计量,这里以独立性检验的例子为例描述。
假设 H_0 成立。
我们是在总的人群中简单随机抽取 n 个样本,首先考虑列变量:根据样本数据,我们共有 a c 个正常人,b d 个色盲患者,也就是说正常人占总人群的比例为 frac{a c}{(a c) (b d)}=frac{a c}{n} ;
再考虑行变量,男性占总人群的比例为 frac{a b}{(a b) (c d)}=frac{a b}{n} ;
倘若H_0 成立,即色盲与性别无关,根据概率的乘法法则,正常男性理论上应该有 frac{a c}{n} frac{a b}{n} n=frac{(a c)(a b)}{n} 个 ,称为第一个格子的理论频数(或者称期望频数),基于这样一种思想,我们可以算出其他三个格子中的理论频数,列在实际频数的后面,并用括号括起来:
性别视觉 | 正常 | 色盲 | 总和 |
---|---|---|---|
男 | $aleft(frac{(a c)(a b)}{n}right)$ | $bleft(frac{(b d)(a b)}{n}right)$ | $a b$ |
女 | $cleft(frac{(a c)(c d)}{n}right)$ | $dleft(frac{(b d)(c d)}{n}right)$ | $c d$ |
总和 | $a c$ | $b d$ | $n$ |
给出一般地情形方便后面讨论:
性别视觉 | 正常 | 色盲 | 总和 |
---|---|---|---|
男 | $A_{11}left(T_{11}right)$ | $A_{12}left(T_{12}right)$ | $a b$ |
女 | $A_{21}left(T_{21}right)$ | $A_{22}left(T_{22}right)$ | $c d$ |
总和 | $a c$ | $b d$ | $n$ |
Pearson证明了,当样本量足够大时:
对于四格表资料,上述计算有一个简化的公式:
倘若
具体计算显著性水平下的卡方值可以查表
推广
可以推广到R×C列联表中,同样地,要求行列变量是无序的分类变量:
组别属性 | $Y_1$ | $Y_2$ | … | $Y_C$ | 总和 |
---|---|---|---|---|---|
$G_1$ | $A_{11}left(T_{11}right)$ | $A_{12}left(T_{12}right)$ | | $A_{1C}left(T_{1C}right)$ | $sum_{c=1}^{C} A_{1 c}$ |
$G_2$ | $A_{21}left(T_{21}right)$ | $A_{22}left(T_{22}right)$ | | $A_{2C}left(T_{2C}right)$ | $sum_{c=1}^{C} A_{2 c}$ |
… | | | | | |
$G_R$ | $A_{R1}left(T_{R1}right)$ | $A_{R2}left(T_{R2}right)$ | | $A_{RC}left(T_{RC}right)$ | $sum_{c=1}^{C} A_{R c}$ |
总和 | $sum_{r=1}^{R} A_{r 1}$ | $sum_{r=1}^{R} A_{r 2}$ | | $sum_{r=1}^{R} A_{r C}$ | $N$ |
理论频次:
有:
该公式也有一个不用计算理论频数的简化版:
同样地,确定显著性水平后,若计算出来的统计量大于临界值,则拒绝原假设,认为行列变量相关(在分类变量的比较检验中的备择假设则是:行变量对于列变量的治疗或处理等效果有差异)。
参考资料
- https://cloud.tencent.com/developer/article/2354153
- https://zhuanlan.zhihu.com/p/140043959
文章链接: https://cloud.tencent.com/developer/article/2354788