「统计描述」是指用统计指标和适当的统计图表来描述资料的「分布规律」及其「数量特征」,本文将介绍统计描述中的常见概念。
频数分布
收集到样本数据之后,我们可以通过「频数分布」(frequency distribution)来简单了解其分布规律。对于「连续变量」,频数分布为变量值在各变量值区间内的变量值个数的分配;对于「离散变量」,频数分布为变量值在各(或各几个)变量值处的变量值个数的分配。
我们可以通过如下步骤计算频数分布(以连续变量为例):
- 求极差(最大值和最小值之差)
- 确定组段数和组距
- 根据组距写出组段
- 分组划记并统计频数
计算得出的频数分布可以通过「频数分布表」或「频数分布图」进行展现,频数图要比频数表更加直观和形象。
频数分布的类型可以分为「对称分布」和「偏态分布」两种。如果各组段的频数以频数最多组段为中心左右两侧大体对称,则认为该资料是对称分布,反之,则认为是偏态分布。
集中趋势的描述
我们用「平均数」(average)来描述一组变量值的集中位置或平均水平,常用的平均数由算术均数、几何均数和中位数。
算术均数
离散趋势的描述
「离散」(dispersion)趋势指的是所有变量值偏离中心位置的程度,描述离散度的常用指标有极差、四分位数间距、方差、标准差和变异系数。
极差
「极差」即一组变量值的最大值与最小值之差。极差难以反映所有数据的变异大小,且受样本量 n 的影响较大。
医学参考值范围的制定
「医学参考值」(reference value)是指包括绝大多数正常人的人体形态、功能和代谢产物等各种生理及生化指标常数,也称正常值。由于存在个体差异,生物医学数据并非常数而是在「一定范围」内波动,故采用「医学参考值范围」(medical reference range)作为判定正常和异常的参考标准。
医学参考值范围可以采用「单侧界」值或「双侧界值」,这通常依据医学专业知识而定。根据资料的分布类型,有两种计算医学参考值范围的常用方法:「正态分布法」和「百分位数法」。
正态分布法
百分位数法
偏态分布资料医学参考值范围的制定通常采用「百分位数法」,所要求的样本含量比正态分布法要多,其计算公式为:
「注意」:参考值范围与「置信区间」(CI)的概念容易混淆但完全不同,参考值范围用于判断观察对象的某项指标正常与否,而置信区间则用于估计总体均数或进行假设检验。