置信度和置信区间

2023-10-18 16:05:35 浏览数 (1)

置信度和置信区间是统计学概念,本文介绍相关内容。

点估计

我们经常需要获取某个分布的参数,当样本空间特别大或者不方便统计所有样本时,常常会用部分样本来估计系统参数,这个方法称作点估计。常用的点估计方法:

  • 用样本均值估计总体均值
  • 用样本方差估计总体方差
  • 用样本的分位数估计总体分位数
  • 用样本的中位数估计总体中位数

置信度和置信区间

当我们通过在分布上采集样本来估计分布的模型参数时,由于误差的存在,必定无法获取到分布真正的参数值,但是可以给出一定范围和置信程度。

对于需要估计的量,我们可以估算出一个区间,但是估算的准不准呢?准确度又有多大呢?我们把这个估算的区间的准确度(可信度)称为置信度。比如说我有 95% 的把握估计我高考分数是 600-650,这里的置信区间就是 600,650,置信度就是 95%。

计算置信区间的置信度
  • 首先我们需要明确需要求解的问题,获取对该变量的观测样本
  • 根据中心极限定理,当数据量足够大时,来自独立同分布的样本的和近似服从高斯分布,在大多数情况我们可以假设误差服从均值为 0 的正态分布
  • 此时我们假设样本服从正态分布,那么求得样本的均值作为分布均值的估计,样本方差乘以 frac{n}{n-1} 作为分布方差的无偏估计
  • 那么我们获取了分布模型、参数,那么以均值为中心,可以向两边划定置信区间
  • 将置信区间的正态分布 pdf 积分起来,得到的就是真值落在这个范围内的概率
  • 常用的置信区间就是以 sigma 记录的 距离均值 μ 左右 1 sigma 置信区间,数值分布在(μ-σ,μ σ) 中的概率为 0.6826 距离均值 μ 左右 2 sigma 置信区间,数值分布在(μ-2σ,μ 2σ) 中的概率为 0.9545 距离均值 μ 左右 3 sigma 置信区间,数值分布在(μ-3σ,μ 3σ) 中的概率为 0.9973
  • 即真值有 99.73% 的概率集中在 (μ-3σ,μ 3σ) 这也称作 三西格玛准则

参考资料

  • https://cloud.tencent.com/developer/article/2066840
  • https://zhuanlan.zhihu.com/p/110612323
  • https://baike.baidu.com/item/三西格玛准则/50913325?fr=aladdin

文章链接: https://cloud.tencent.com/developer/article/2345864

0 人点赞