上篇文章叙述到单样本定量资料与已知总体比较、单样本定量资料前后比较,同个个体两种检测方法(定量结果指标)比较的统计分析,这篇文章主要来叙述最常见应用最普遍的两独立样本t检验。
这个名词是我们在临床试验工作中最常听见的名词,在临床试验中,通常应用在两组样本里。例如:
- 比较试验组和安慰剂组病毒载量的下降值。
- 比较手术组和未手术组肿瘤大小减小值。
- 比较服用A药物组和服用B药物组视力值变化数。
我们将提供两个独立样本检验的方法:
- 两独立样本t检验
- Wilcoxcon秩和检验
1.两独立样本t检验
满足三条原则可用:
- 正态性:要求两样本分别来自正态分布总体或样本容量足够大。
- 方差齐性:要求两样本的总体方差相等。
- 独立性:任何两个观察值之间互不影响。
有人会问,不满足怎么办,那些统计学家和数学家想出各种办法去解决不满足该怎么去检验的问题:
- 正态性差不多,但是方差齐性不满足,那就校正一下t吧,用t‘检验,校正的公式怎么来的,可以去问Gosset高斯,他应该知道,目前我还不知道。
- 连正态性都不满足,那就别检验总体均数了,检验两个总体的分布是不是相同,就是大名鼎鼎的Wilcoxcon检验。
假设检验步骤:
- 遵循假设检验一般做法,我们首先定个假设:H0,两组的总体均值相等,即mu _1=mu _2 。同样如果拒绝H0,我们就有理由认为mu _1ne mu _2 ,即H1。请了解,这里我们假设的是两组的总体均值相等。 再设定好H0成立概率最小为多大时,我们拒绝H0。我们常规设定为0.05,即如果H0成立的概率比0.05还小时,我们就不认为H0是成立的了。
- 构建统计量: t=frac{bar{X}_1-bar{X}_2}{S_{bar{X}_1-bar{X}_2}},\S_{bar{X}_1-bar{X}_2}=sqrt{S_{C}^{2}left( frac{1}{n_1} frac{1}{n_2} right)},\S_{C}^{2}=frac{left( n_1-1 right) S_{1}^{2} left( n_2-1 right) S_{2}^{2}}{n_1 n_2-2}
- 确定p值,下结论。
手动挡开启,进行手动计算,同时用sas软件进行进一步验证。
例:比较试验组和对照组小鼠肝脏中锌含量:
实验组 | 对照组 |
---|---|
7.14 | 6.61 |
5.95 | 7.31 |
7.10 | 7.20 |
8.26 | 6.59 |
10.08 | 7.65 |
7.91 | 5.59 |
9.07 | 6.39 |
9.30 | 6.57 |
8.64 | 7.91 |
8.51 | 7.86 |
实验组:bar{X}_1 =8.20,S_1 =1.21,n_1 =10
对照组:bar{X}_1 =6.97,S_1 =0.74,n_1 =10
一路代入公式计算得到统计量t:
S_{C}^{2}=frac{left( n_1-1 right) S_{1}^{2} left( n_2-1 right) S_{2}^{2}}{n_1 n_2-2} =1.01,
S_{bar{X}_1-bar{X}_2}=sqrt{S_{C}^{2}left( frac{1}{n_1} frac{1}{n_2} right)} =0.45,
t=frac{bar{X}_1-bar{X}_2}{S_{bar{X}_1-bar{X}_2}} =2.73
nu =n_1 n_2-2=18
t_{0.02/2,18}=2.552 ,p<0.02,拒绝H0,可认为两组均数差异有统计学意义,由于X1>X2,可以推断试验组均数高于对照组均数。
SAS程序和结果如下:
代码语言:javascript复制data test;
input group AVAL @@;
label group="组别" AVAL="分析值";
format group group.;
cards;
1 7.14 2 6.61
1 5.95 2 7.31
1 7.10 2 7.20
1 8.26 2 6.59
1 10.08 2 7.65
1 7.91 2 5.59
1 9.07 2 6.39
1 9.30 2 6.57
1 8.64 2 7.91
1 8.51 2 7.86
;
run;
proc ttest alpha=0.02;
class group;
var AVAL;
run;
可以看到,方差齐性检验表明两组锌含量总体方差相等。t检验t值=2.73,p=0.0138,与手动挡计算结果一致。
大家感兴趣可以看下上图中的两个知识点:置信区间和Satterthwaite。置信区间的求法同样借助于统计分布,后续单开一个章节说一下理解。Satterthwaite就是方差不齐的时候采用的校正t检验的结果。
2.Wilcoxcon秩和检验
- 基本思想:将两组原始数据混合后由小到大编秩,分别计算两组的秩和T_1 和T_2 。设n_1 和n_1 为两组样本含量,N=n_1 n_2 ,则T_1 T_2=frac{Nleft( N 1 right)}{2} ,就是1 2 3 4 5 =frac{5left( 5 1 right)}{2} 。
- 当两总体分布相同时,两组的秩应该来自同一个总体,两组秩和分别跟frac{Nleft( N 1 right)}{4} 相差不大。同样借助分布的知识来确定p值。当H0成立的时候,任一样本(或较小数量的样本)的秩和T服从总体均数为n_1left( N 1 right) 的对称分布,同正态分布确定p值一样,再用对称分布确定p值。
- 当样本量比较大时,秩和T近似服从总体均数n_1left( N 1 right) ,方差为n_1n_2left( N 1 right)/12 的正态分布,用正态近似法确定p值。
手动挡开启:
实验组 | 对照组 |
---|---|
110 | 120 |
119 | 140 |
133 | 162 |
127 | 184 |
141 | 132 |
117 | 128 |
135 | 177 |
120 | 143 |
181 |
- 编秩计算:n_1=8,T_1=47.5,n_2=9,T_2=105.5 。
- 查表得到T_1 在界值之外,故p<0.05,拒绝H0,认为两总体分布不同。
SAS验证:
代码语言:javascript复制data test;
input group AVAL @@;
label group="组别" AVAL="分析值";
format group group.;
cards;
1 110 2 120
1 119 2 140
1 133 2 162
1 127 2 184
1 141 2 132
1 117 2 128
1 135 2 177
1 120 2 143
1 . 2 181
;
run;
proc npar1way data=test wilcoxon correct=no;
class group;
var AVAL;
run;
结论一致,完工,睡觉。