一、标准误差
假设测量一个基因的五个表达量:
**标准偏差(Standard Deviation)**量化了一组测量值中的变化程度
同样的实验做五次,每次实验用不同的样本:
把五个样本的平均值放在一个数轴:
可以计算得到两个值:
对五个样本的平均值取平均值,计算得到的标准偏差就是标准误差。
**标准误差(Standard Error)**量化了多组测量值均值的变化程度
不难发现:
- 标准偏差量化了一组测量值中的变化程度
- 标准误差量化了多组测量值均值的变化程度
二、标准误差的表示
三个样本
绿色:均值
红色:标准偏差
如果不想展示原始数据,只需要反应标准偏差和均值就行,也就是下面的TNT图:
误差棒(Error Bars)有三种类型:
- 标准偏差(Standard Deviations)
- 标准误差(Standard Errors)
- 置信区间(Confidence Intervals)
经验法则: 均值 ± 一个标准偏差的数值范围,覆盖全部数值的68% 均值 ± 两个标准偏差的数值范围,覆盖全部数值的95%
计算平均值的标准误差
- 抽取一组样本,每个样本都有相同数量的测量值
- 计算每组样本的均值
- 利用均值计算标准误差 Std.Err
可以发现标准误差比标准偏差要小很多。这是因为平均值没有原始数据那么分散。
当然也可以计算标准偏差的标准偏差,这个值叫做标准偏差的标准误差。它告诉我们多个样本的标准偏差是如何分布的。
其实理论上,我们可以计算一切统计值的标准偏差,比如中位数,众数,百分数等的标准偏差,得到的值就是该统计值的标准误差。
标准误差只是来自同一群体的多个均值的标准偏差。
三、如何在一组样本中计算标准误差
自助抽样法(Bootstrap)
- 选取一个随机测量值
- 记录该值
- 重复以上两步,直到拿到 5 个测量值
- 计算均值,中位数,众数等
- 回到第一步,重复以上步骤,拿到多个统计量的值
- 利用拿到的统计量的值,如均值计算标准偏差,得到标准误差