磐创AI分享
作者 | Indhumathy Chelliah 编译 | VK 来源 | Towards Data Science
中心极限定理
中心极限定理是推理统计中的一个重要概念.推理统计学是指从样本中对总体进行推断.
当我们从总体中抽取一个随机样本并计算其均值时,由于抽样波动,它很可能与总体均值不同.样本统计量和总体参数之间的变化称为抽样误差.
由于这种抽样误差,从样本统计数据中推断总体参数可能是困难的.中心极限定理是推理统计中的一个重要概念,它帮助我们从样本统计量中对总体参数进行推理.
让我们在这篇文章中详细学习中心极限定理.
参考我的推理统计故事——了解概率和概率分布的基础知识
再突破!曹原新年首篇Nature
目录
- 统计、参数
- 抽样分布
- 标准错误
- 抽样分布属性
- 中心极限定理
- 置信区间
- 抽样分布可视化
什么是统计和参数?
统计量→代表样本特征的值称为统计量.
参数→表示总体特征的值称为参数.(我们从总体统计数据中推断出的值)
统计量→样本标准差S,样本均值X
参数→总体标准差σ,总体均值μ
我们从统计量到参数进行推理.
抽样分布
抽样——从总体中抽取有代表性的样本.
抽样分布是指从总体中抽取的一个给定样本的所有可能值的分布.
抽样分布均值是指从总体中选取的给定样本容量样本均值的分布.
抽样分布步骤:
- 我们将从总体中抽取随机样本(s1,s2…sn).
- 我们将计算样本的均值 (ms1,ms2,ms2….msn).
- 然后计算抽样均值的均值.(ms)
ms=(ms1 ms2 …msn)/n
n →样本大小.
现在我们算出了抽样均值的均值.接下来,我们必须计算抽样均值的标准差
标准差
样本均值在抽样分布中的可变程度是标准差.抽样分布的标准差称为均值的标准差.
均值标准差=总体标准差/sqrt(n)
n -样本大小
[随着样本量的增加,标准差减小.所以大样本有助于减少标准差]
抽样分布特性
- 抽样均值的均值等于总体抽样均值的均值等于总体均值.
当我们从总体中抽取许多随机样本时,这些变化就会抵消掉.抽样均值的均值等于总体均值
- 抽样分布的标准差等于总体标准差除以根号下样本容量抽样分布的标准差等于总体标准差除以根号下样本容量抽样分布的标准差等于总体标准差除以根号下样本容量.
中心极限定理
中心极限定理指出,即使总体不是正态分布,抽样分布也会服从正态分布,前提是我们从总体中抽取足够大的样本.[对于大多数分布,n>30将给出一个接近正态的抽样分布]
抽样分布的性质也适用于中心极限定理。
置信区间
通过使用置信区间,我们可以说总体均值将处于某个范围内.
置信区间是总体参数可以取的值的范围.
总体均值置信区间=样本均值 (置信水平值)*均值标准差
Z→Z分数与置信程度相关.
最常用的置信水平
99%置信水平→Z得分= 2.58
95%置信水平→Z得分= 1.96
90%置信水平→Z得分=1.65
使用Python和Seaborn进行抽样分布
例子:
- 假设我们要计算一所学校所有学生的平均分.
学生人数= 1000.
代码语言:javascript复制population1=np.random.randint(0,100,1000)
- 检查分布
sns.distplot(population1,hist=False)
总体不是正态分布的.
- 我们将从总体中抽取小于30的随机样本.
sample_means1=[]
for i in range(0,25):
sample=np.random.choice(population1,size=20)
sample_means1.append(np.mean(sample))
sample_m1=np.array(sample_means1)
- 抽样分布
sns.distplot(sample_means1,hist=False)
plt.title(“Sampling distribution of sample mean”)
plt.axvline(sample_m1.mean(),color=’green’,linestyle=’ — ‘)
plt.xlabel(“Sample Mean”)
抽样分布接近正态分布
- 让我们检查一下抽样均值和标准差.
print (“Sampling mean: “,round(sample_m1.mean(),2))
print (“Standard Error: “,round(sample_m1.std(),2))
#Output:
Sampling mean: 47.96
Standard Error: 6.39
标准差= 6.39.我们增加样本容量,看看标准差是否下降.
- 抽样量大于30,计算抽样均值
sample_means2=[]
for i in range(0,100):
sample=np.random.choice(population1,size=50)
sample_means2.append(np.mean(sample))
sample_m2=np.array(sample_means2)
- 抽样分布
sns.distplot(sample_means2,hist=False)
plt.title(“Sampling distribution of sample mean”)
plt.axvline(sample_m2.mean(),color=’green’,linestyle=’ — ‘)
plt.xlabel(“Sample Mean”)
抽样分布现在是正态分布.
- 计算抽样均值和标准差
print (“Sampling mean: “,round(sample_m2.mean(),2))
print (“Standard Error: “,round(sample_m2.std(),2))
# Output:
Sampling mean: 48.17
Standard Error: 3.89
增大样本量后,标准差减小.现在标准差是3.89.
- 我们来验证一下总体均值
print (“Population Mean: “,round(population1.mean(),2))
#Output:
Population Mean: 48.03
抽样均值是48.17约等于总体均值48.03
- 计算99%置信水平的置信区间.
Lower_limit=sample_m2.mean()- (2.58 * (sample_m2.std()))
print (round(Lower_limit,2))
#Output: 38.14
Upper_limit=sample_m2.mean() (2.58 * (sample_m2.std()))
print (round(Upper_limit),2)
#Output: 58.19
置信区间= 38.14 - 58.19
结论
在本文中,我介绍了中心极限定理、抽样分布、标准差和置信区间.