假设检验 (hypothesis testing)

假设检验（hypothesis testing）是指从对总体参数所做的一个假设开始，然后搜集样本数据，计算出样本统计量，进而运用这些数据测定假设的总体参数在多大程度上是可靠的，并做出承认还是拒绝该假设的判断。

简介

假设检验（hypothesis testing）是指从对总体参数所做的一个假设开始，然后搜集样本数据，计算出样本统计量，进而运用这些数据测定假设的总体参数在多大程度上是可靠的，并做出承认还是拒绝该假设的判断。如果进行假设检验时总体的分布形式已知，需要对总体的未知参数进行假设检验，称其为参数假设检验；若对总体分布形式所知甚少，需要对未知分布函数的形式及其他特征进行假设检验，通常称之为非参数假设检验。此外，根据研究者感兴趣的备择假设的内容不同，假设检验还可分为单侧检验（单尾检验）和双侧检验（双尾检验），而单侧检验又分为左侧检验和右侧检验。

假设检验的基本思想是反证法思想和小概率事件原理。反证法的思想是首先提出假设（由于未经检验是否成立，所以称为零假设、原假设或无效假设），然后用适当的统计方法确定假设成立的可能性大小，如果可能性小，则认为假设不成立，拒绝它；如果可能性大，还不能认为它不成立。小概率事件原理，是指小概率事件在一次随机试验中几乎不可能发生，小概率事件发生的概率一般称之为“显著性水平”或“检验水平”，用 alpha 表示，而概率小于多少算小概率是相对的，在进行统计分析时要事先规定，通常取alpha=0.01、0.05、0.10 等。

—— 国家统计局

用例

学而思网校App进行了改版迭代，现在有以下两个版本

版本1: 首页为一屏课程列表；

版本2: 首页为信息流。

如果我们想区分两个版本，哪个版本用户更喜欢，转化率会更高。我们就需要对总体（全部用户）进行评估，但是并不是全部存量用户都会访问App，并且每天还会新增很多用户，所以我们无法对总体（全部用户）进行评估，我们只能从总体的用户中随机抽取样本（访问App）的用户进行分析，用样本数据表现情况来充当总体数据表现情况，以此来评估哪个版本转化率更高。

定义

假设检验是先对总体参数提出一个假设值，然后利用样本信息判断这一假设是否成立

假设

由定义可知，我们需要对结果进行假设，然后拿样本数据去验证这个假设。

所以做假设检验时会设置两个假设：

一种叫原假设，也叫零假设，用 H_0 表示。原假设一般是统计者想要拒绝的假设。

原假设的设置一般为：等于、大于等于、小于等于。

另外一种叫备择假设，用 H_1 表示。备则假设是统计者想要接受的假设。备择假设的设置一般为：不等于、大于、小于。

用例在进行假设检验时，我们希望接受版本2的假设，想拒绝接受版本1的假设。所以我们的假设设置为：

$$ H_0 ：μ_{版本1} >= μ_{版本2} quad quad H_1 : μ_{版本1} < μ_{版本2}。 $$

为什么统计者想要拒绝的假设放在原假设呢？因为原假设备被拒绝如果出错的话，只能犯第I类错误，而犯第I类错误的概率已经被规定的显著性水平所控制。

两类错误

我们通过样本数据来判断总体参数的假设是否成立，但样本时随机的，因而有可能出现小概率的错误。这种错误分两种，一种是弃真错误，另一种是取伪错误。

弃真错误

弃真错误也叫第I类错误或α错误：它是指原假设实际上是真的，但通过样本估计总体后，拒绝了原假设。明显这是错误的，我们拒绝了真实的原假设，所以叫弃真错误，这个错误的概率我们记为α。这个值也是显著性水平，在假设检验之前我们会规定这个概率的大小。

取伪错误

取伪错误也叫第II类错误或β错误：它是指原假设实际上假的，但通过样本估计总体后，接受了原假设。明显这是错误的，我们接受的原假设实际上是假的，所以叫取伪错误，这个错误的概率我们记为β。

因为原假设备被拒绝，如果出错的话，只能犯弃真错误，而犯弃真错误的概率已经被规定的显著性水平所控制了。这样对统计者来说更容易控制，将错误影响降到最小。因此 原假设一般都是想要拒绝的假设 。

显著性水平

显著性水平是指当原假设实际上正确时，检验统计量落在拒绝域的概率，简单理解就是犯弃真错误的概率。这个值是我们做假设检验之前统计者根据业务情况定好的。

显著性水平α越小，犯第I类错误的概率自然越小，一般取值：0.01、0.05、0.1等

检验方式

检验方式分为两种：双侧检验和单侧检验。单侧检验又分为两种：左侧检验和右侧检验。

双侧检验

备择假设没有特定的方向性，形式为“≠”这种检验假设称为双侧检验

单侧检验

备择假设带有特定的方向性形式为">“”<"的假设检验，称为单侧检验 "<"称为左侧检验 ">"称为右侧检验

检验统计量

根据原假设和备择假设作出决策的某个样本统计量，称为检验统计量。

一般都会根据假设推导出一个服从某个标准分布的变量，然后根据该标准分布查表积分，比较统计量和显著水平对应的统计量来判定是否拒绝原假设。

拒绝域

定义：拒绝域是由显著性水平围成的区域

拒绝域的功能主要用来判断假设检验是否拒绝原假设的。如果样本观测计算出来的检验统计量的具体数值落在拒绝域内，就拒绝原假设，否则不拒绝原假设。给定显著性水平α后，查表就可以得到具体临界值，将检验统计量与临界值进行比较，判断是否拒绝原假设。

假设检验步骤

提出原假设与备择假设
从所研究总体中出抽取一个随机样本
构造检验统计量
根据显著性水平确定拒绝域临界值
计算检验统计量与临界值进行比较

两种假设检验

假设检验根据业务数据分为两种：一个总体参数的假设检验和两个总体参数的假设检验

一个总体参数的假设检验：只有一个总体的假设检验

举个例子：学而思App原版本1转化率为 19%，学而思App版本2开发完成后，直接全量发布整体上线，过一段时间后统计转化率为27%，我们想判断版本2是否比版本1好，这时我们做的假设检验总体只有1个，全部用户。对于总体只有一个的称为一个总体参数的假设检验。

两个总体参数的假设检验：有两个总体的假设检验

同样的例子：学而思App版本1和学而思App版本2同时上线，流量各50%，这时我们做的假设检验总体有2个，分别为命中版本1的全部用户与命中版本2的全部用户。

两种假设检验的检验统计量计算方式有所不同，所以做区分描述。

一个大样本总体参数的假设检验

大小样本：样本量大于等于30的样本称为大样本，样本量小于30的样本称为小样本。

总体参数的大样本 (nge30 ) 假设检验方法：

假设形式

形式	假设
双侧检验	$ mathrm{H} 0: mu=mu 0, mathrm{H} 1: mu neq mu 0 $
左侧检验	$mathrm{H} 0: mu geq mu 0, mathrm{H} 1: mu<mu 0$
右侧检验	$mathrm{H} 0: mu leq mu 0 , mathrm{H} 1: mu>mu 0$

相关变量

变量	描述
统计量分布	标准正态分布
$bar{x}$	样本均值
$mu$	假设的总体均值
$s$	样本标准差
$sigma$	总体标准差
$n$	样本量
$z $ ($sigma$ 已知)	检验统计量： $z=frac{bar{x}-mu 0}{sigma / sqrt{n}}$
$z $ ($sigma$ 未知)	检验统计量： $z=frac{bar{x}-mu 0}{s / sqrt{n}}$

alpha 与拒绝域

检验方式	拒绝域
双侧检验	$
左侧检验	$Z<-Z_alpha$
右侧检验	$Z >Z_alpha$

P 值决策

mathrm{P}<alpha $``$ {H0}

一个总体参数的小样本假设检验方法

总体参数的大样本 (n<30

假设形式

形式	假设
双侧检验	$ mathrm{H} 0: mu=mu 0, mathrm{H} 1: mu neq mu 0 $
左侧检验	$mathrm{H} 0: mu geq mu 0, mathrm{H} 1: mu<mu 0$
右侧检验	$mathrm{H} 0: mu leq mu 0, mathrm{H} 1: mu>mu 0$

相关变量

变量	描述
统计量分布	t 分布
$bar{x}$	样本均值
$mu$	假设的总体均值
$s$	样本标准差
$sigma$	总体标准差
$n$	样本量
$t $ ($sigma$ 已知)	检验统计量： $t=frac{bar{x}-mu 0}{sigma / sqrt{n}}$
$t $ ($sigma$ 未知)	检验统计量： $t=frac{bar{x}-mu 0}{s / sqrt{n}}$

alpha 与拒绝域

检验方式	拒绝域
双侧检验	$
左侧检验	$t<-t_alpha(n-1)$
右侧检验	$t >t_alpha(n-1)$

t值

n 是样本量=10、自由度=n-1 。当α=0.05 时，临界值-双侧检验：t0.025(9) 单侧检验 t0.05(9)

P值决策

一个总体成数的假设检验

样本成数：它是指样本中具有某一相同标志表现的单位数占样本容量的比重,记为p.

总体成数：它是指总体中具有某一相同标志表现的单位数占全部总体单位数的比重,一般用π表示.

方差估计：

样本可以分为具有该标志和不具有该标志的两种形式，具有该标志在整体样本中的比例为pi ，则随机选择整体中的一个样本，则该样本具有标志的概率为 pi ，则可以看做整体服从概率为 pi 的二项分布，因此方差为 npi(1-pi) ，同时根据棣莫佛－拉普拉斯定理，n 充分大时可以用正态分布来计算二项分布的概率，因此此类问题可以转化为标准正态分布统计量 z 。

假设形式

形式	假设
双侧检验	$ mathrm{H} 0: pi=pi 0, mathrm{H} 1: pi neq pi 0 $
左侧检验	$mathrm{H} 0: pi geq pi 0, mathrm{H} 1: pi<pi 0$
右侧检验	$mathrm{H} 0: pi leq pi 0, mathrm{H} 1: pi>pi 0$

相关变量

变量	描述
统计量分布	标准正态分布
$P$	样本成数
$pi0$	总体成数
$n$	样本量
$z $	检验统计量： $z=frac{P-pi 0}{sqrt{frac{pi 0(1-pi 0)}{n}}}$

alpha 与拒绝域

检验方式	拒绝域
双侧检验	$
左侧检验	$Z<-Z_alpha$
右侧检验	$Z >Z_alpha$

P值决策

mathrm{P}<alpha $``$ mathrm{H} 0

两个总体大样本参数的假设检验

大小样本：样本量大于等于30的样本称为大样本，样本量小于30的样本称为小样本。

假设形式

形式	假设
双侧检验	$ H 0: quad mu 1-mu 2=0,quad H 1: quad mu 1-mu 2 neq 0 $
左侧检验	$H 0: quad mu 1-mu 2 geq 0, quad H 1: quad mu 1-mu 2<0$
右侧检验	$H 0: quad mu 1-mu 2 leq 0, quad H 1:quad mu 1-mu 2>0$

相关变量

变量	描述
统计量分布	标准正态分布
$bar{x}$	两个总体样本均值
$mu$	两个总体的均值
$s$	样本标准差
$sigma$	总体标准差
$n$	两个样本量
$z $ ($sigma$ 已知)	检验统计量： $t=frac{(bar{x} 1-bar{x} 2)-(mu 1-mu 2)}{sqrt{sigma1^{2} / n 1 sigma 2^{2} / n 2}}$
$z $ ($sigma$ 未知)	检验统计量： $z=frac{(bar{x} 1-bar{x} 2)-(mu 1-mu 2)}{sqrt{s 1^{2} / n 1 s 2^{2} / n 2}}$

alpha 与拒绝域

检验方式	拒绝域
双侧检验	$
左侧检验	$Z<-Z_alpha$
右侧检验	$Z >Z_alpha$

P 值决策：

mathrm{P}<alpha $``$ mathrm{H} 0

两个总体成数的假设检验

当n_1P_1、n_1(1-P_1)、n_2P_2、n_2(1-p_2) 都大于或等于 5 时，就可以称为大样本。

假设形式

形式	假设
双侧检验	$H0 : π1-π2 =0 ，H1 : π1-π2≠0$
左侧检验	$H0 : π1-π2 ≥0 ，H1 : π1-π2<0$
右侧检验	$H0 : π1-π2 ≤0 ，H1 : π1-π2>0$

原假设若为： H0: pi1-pi2=0 或 pi1-pi2ge0 、pi1-pi2le0

相关变量

变量	描述
统计量分布	标准正态分布
$p1,p2$	两个样本成数
$p$	两个样本的合并成数 $p=frac{p 1 * n 1 p 2 * n 2}{n 1 n 2}$
$n1,n2$	两个样本量
$z $	检验统计量： $z=frac{p 1-p 2}{sqrt{p(1-p)(1 / n 1 1 / n 2)}}$

若原假设为: H 0: quad pi 1-pi 2=d 0(d 0 neq 0)

相关变量

变量	描述
统计量分布	标准正态分布
$p1,p2$	两个样本成数
$n1,n2$	两个样本量
$z $	检验统计量： $z=frac{(p 1-p 2)-d 0}{sqrt{p 1(1-p 1) / n 1 p 2(1-p 2) / n 2}}$

alpha 与拒绝域

检验方式	拒绝域
双侧检验	$
左侧检验	$Z<-Z_alpha$
右侧检验	$Z >Z_alpha$

课件资料

参考资料

http://www.stats.gov.cn/zs/tjll/csgj/202302/t20230215_1905713.html
https://www.zhihu.com/tardis/zm/art/86178674?source_id=1003
https://hep.tsinghua.edu.cn/~orv/teaching/statistics/pj.pdf
https://www.zywvvd.com/notes/study/probability/central-limit-theorem/central-limit-theorem

文章链接： https://cloud.tencent.com/developer/article/2355580

testing 变量事件数据统计

1 人点赞