1 均数的抽样误差与标准误
了解总体特征的最佳方法是对总体的每一个个体进行观察、试验,但这在医学研究实际中往往不可行。我们只能采用抽样研究,从总体中随机抽取一个或几个样本,通过样本信息了解总体特征,这种方法即「统计推断」(statistical inference)。
由于存在个体差异,抽得样本的均数往往不太可能等于总体均数,因此通过样本推断总体会有误差。这种由个体产生、随机抽样造成的「样本统计量」(statistic)与「总体参数」(parameter)的差异,称为「抽样误差」(sampling error)。同样,来自同一总体的若干样本统计量间也存在抽样误差。
在抽样研究中,抽样误差「不可避免」,其产生的根本原因是生物个体的变异性。但抽样误差的分布也具有一定的规律性,以样本均数为例,其抽样分布具有如下特点(注意是多次抽样后每个样本的均数的分布):
- 各样本均数未必等于总体均数
- 各样本均数间存在差异
- 样本均数的分布很有规律,围绕着总体均数,中间多,两边少,左右基本对称,也服从正态分布(针对正态分布总体,非正态分布总体当样本量大于 60 时样本均数近似服从正态分布)
- 样本均数间相差较小,其变异范围较之原变量的变异范围大大缩小
2 t 分布
3.4 总体均数可信区间与参考值范围的区别
总体均数的可信区间与个体值的参考值范围无论在含义、用途还是计算上均不相同,实际应用时,不能讲两者混淆。下表说明了其区别:
6 假设检验的注意事项
6.1 一型错误和二型错误
假设检验采用小概率反证法的思想,根据P 值作出的推断结论具有概率性,因此其结论不可能完全正确,可能发生如下「两种错误」:
6.2 假设检验应注意的问题
在进行假设检验时,还应该注意以下几点:
「要有严密的研究设计」。保证对比组间的均衡性,除对比的主要研究因素外,其他可能影响结果的因素在对比组间应相同或相近。
「不同类型的资料应选用不同的检验方法」。应根据分析目的、资料类型和分布、设计方案的种类、样本含量大小等选用适当的检验方法。
「正确理解”显著性“一词的含义」。一般假设检验的结果并不能推断两个(或多个)总体参数差异的大小,只能推断其是否有差异,因此现采用差异”有无统计学意义“一词表达。
「结论不能绝对化」。因统计结论具有概率性质,故不要使用“肯定”、“一定”、“必定”等词。
「统计”显著性“与医学 / 临床 / 生物学”显著性“」。统计“显著性”对应于统计结论,而医学 / 临床 / 生物学”显著性“对应于专业结论。假设检验是为专业服务的,统计结论必须和专业结论有机地结合,才能得出恰如其分、符合客观实际的最终结论。
「可信区间与假设检验的区别和联系」。可信区间用于说明量的大小即推断总体参数(如总体均数)的范围,而假设检验用于推断质的不同即判断两总体参数是否不等。两者既相互联系,又有区别。可信区间可以回答假设检验的问题,还可提示差别有无实际的专业意义,而假设检验可以获得较为确切的概率 P 值。
7 正态性检验和两样本方差比较的 F 检验
之前提到,在进行两样本 t 检验尤其是两小样本均数的比较时,要求相应的两总体均服从正态分布且两总体方差相等,即方差齐性。而对于单样本和配对样本,也需要总体服从正态分布(小样本时)。因此,在进行假设检验之前,严格来说我们需要对样本进行正态性检验和方差齐性检验,注意正态性检验还可以用于采用正态分布法制定参考值范围。本节将介绍「正态性检验」和「方差齐性检验」的常用方法。
7.1 正态性检验
正态性检验的方法总的来说有两大类:「图示法」和「计算法」。
图示法主要采用「概率图」(P-P plot)和「分位数图」(Q-Q plot)。其中 P-P 图是以实际或观察的累积频率对被检验分布的理论或期望累积频率作图,而 Q-Q 图则是以实际或观察的分位数对被检验分布的理论或期望分位数作图,其中以 Q-Q 图的效率较高。
如果所分析的数据服从正态分布,则在 P-P 图和 Q-Q 图上的数据点应分布在从「左下」到「右上」的直线附近(如下图所示),否则数据点偏离直线较远。
7.2 两样本方差比较的 检验
两总体方差是否不等的判断过去多采用 「 检验」(F test),而由于该检验理论上要求资料服从正态分布,而许多资料方差不齐时,往往不服从正态分布。因此,近年来一般使用不依赖总体分布具体形式的 「Levene 检验」(Levene's test)。Levene 检验可用于两个或多个总体方差的齐性检验,将在之后进行介绍。这里我们仅介绍两样本方差比较的 检验。
不同的公式对应不同特点的原始数据,如第二个公式适用于原始数据较小或有 0 时。
适用条件:
- 对数正态分布资料,即原始数据的效应是相乘时
- 各样本标准差与均数成比例或变异系数是常数
「平方根变换」(square root transformation)。即将原始数据 开算术平方根,其基本形式如下:
适用条件:
- 服从 Poisson 分布的资料,即各样本方差与均数近似相等
- 轻度偏态分布的资料
「反正弦变换」(arcsine transformation)。即将原始数据 的平方根取反正弦变换,其基本形式有两种:
适用条件:数据两端波动较大的资料