数据科学17 | 统计推断-期望方差和常见概率分布

2020-07-03 16:57:35 浏览数 (2)

1. 期望(expectation)

期望是指随机变量试验中每次可能结果的概率乘以其结果的总和。

对于概率质量函数为p(x)的离散随机变量X,期望值为: 。

随机变量的分布的中心就是其均值或期望值。均值改变,分布会如同均值向左或向右移动。统计推断中,用样本均值估计总体分布的均值(期望值),样本量越多,样本均值约接近总体均值。

例:HistData包中的Galton数据集,包括父母和孩子的身高。

代码语言:javascript复制
library(HistData)
head(Galton)
  parent child
1   70.5  61.7
2   68.5  61.7
3   65.5  61.7
4   64.5  61.7
5   64.0  61.7
6   67.5  62.2

#画出小孩身高分布柱状图及密度分布
library(ggplot2)
ggplot(data = Galton, aes(x = child))  
     geom_histogram(fill = "salmon", 
                    binwidth = 1, aes(y = ..density..), colour = "black")  
     geom_density(size = 2)

展示估计的总体均值mu及均方误差MSE,manipulate包的manipulate函数可进行交互操作。

代码语言:javascript复制
library(manipulate)
myHist <- function(mu){
  g <- ggplot(Galton, aes(x = child))
  g <- g   geom_histogram(fill = "salmon",
                          binwidth=1, aes(y = ..density..), colour = "black") 
  g <- g   geom_density(size = 2)
  g <- g   geom_vline(xintercept = mu, size = 2)
  mse <- round(mean((Galton$child - mu)^2), 3)
  g <- g   labs(title = paste('mu = ', mu, ' MSE = ', mse))
  g
}
manipulate(myHist(mu), mu = slider(62, 74, step = 0.5))

manipulate函数控制估计的总体均值,点击左上角的设置图标可以看到控制条。

可以看到,黑色垂线是对总体均值的估计,均值为62时均方误差为43.403;移动垂线使它接近分布的中心,均值为68时,均方误差变小。

离散随机变量的期望值可能不是实际有意义的值。

假设抛硬币结果为X,X=0表示反面向上,X=1表示正面向上。期望值E[X]=0.5×0 0.5×1=0.5。

随机变量X的均值Mu本身就是一个随机变量,也有一个分布,Mu的分布的中心和X的分布的中心相同,因此,样本均值的期望值正是它试图估计的总体均值。此时,可以说这个估计是无偏的。

2. 方差(variance)

方差是衡量随机变量离散程度。标准差(standard deviation)为方差的平方根。

概率分布中,方差定义为随机变量X与均值?之间距离平方的期望:统计描述中,总体方差样本方差

?为总体均值, 为样本均值。

・样本方差 以估计总体方差 。

样本方差也是一个随机变量,样本方差的期望值是它试图估计的总体方差。以n-1为分母得到的才是总体方差的无偏估计,n-1为自由度。

・样本均值的期望: ;样本均值的方差: 。

样本标准差 是对总体变化的估计,描述总体的变化情况。

标准误(standard error) ,是样本均值的标准差,反映每次抽样样本之间的差异。

例:标准正态分布N(0,1)的方差为1,标准差为1; 个标准正态随机数均值的总体标准差为 。

代码语言:javascript复制
nosim<-1000
n<-10
sd(apply(matrix(rnorm(nosim * n), nosim),1,mean))
[1] 0.3256227

模拟10000个标准正态分布随机数样本,排列成1000行10列的矩阵并计算每行的均值,对这10个IID样本的均值计算标准差sd。

代码语言:javascript复制
1/sqrt(n) #10个标准正态随机数均值的总体标准差
[1] 0.3162278

标准差sd与标准正态分布均值的总体标准差十分接近。

标准均匀分布U(0,1)的方差为1/12;n个均匀分布随机数均值的总体标准差为1/√(12×n)。

代码语言:javascript复制
nosim<-1000
n<-10
sd(apply(matrix(runif(nosim * n),nosim),1,mean))
[1] 0.09004656

模拟10000个均匀分布随机数,排列成1000行10列的矩阵并计算每行的均值,对这10个IID样本的均值计算标准差sd。

代码语言:javascript复制
1/sqrt(12 * n)
[1] 0.09128709

两者仍然十分接近。

泊松分布Poisson(4)的方差为4;n个Poisson(4)的随机样本均值的总体标准差为2/√n。同理,

代码语言:javascript复制
nosim<-1000
n<-10
sd(apply(matrix(rpois(nosim * n, 4), nosim), 1, mean))
[1] 0.6327016

2/sqrt(n)
[1] 0.6324555

例:UsingR包的father.son数据集,包含父亲和儿子的身高数据。

代码语言:javascript复制
library(UsingR)
data(father.son)
x <- father.son$sheight 
n <- length(x)
#画出儿子身高的直方图及密度分布
ggplot(father.son, aes(x=sheight))   
  geom_histogram(fill = "salmon",
                        binwidth=1, aes(y = ..density..), colour = "black")   
  geom_density(size = 2)
代码语言:javascript复制
round(c(var(x), var(x) / n, sd(x), sd(x) / sqrt(n)),2)
[1] 7.92 0.01 2.81 0.09

密度分布为总体密度分布的估计。样本方差估计总体儿子身高的变异性。

假设这是一个随机样本,x的方差7.92和x的标准差2.81,表示样本数据集中儿子身高的变异性。0.01和0.09讨论儿子平均身高的变化;标准误0.09即n个儿子身高均值的分布的标准差。

3. 常见的概率分布

➢伯努利分布

伯努利分布是二项分布的特殊情况,随机变量 取值为0和1,概率分别为 和 。

概率质量函数PMF为: 。

的均值为 ,方差为 。

➢二项分布

二项分布是重复n次的伯努利分布,即二项随机变量是一组IID伯努利试验结果的和。

概率质量函数PMF为: , 。

的均值为,方差为 。

例:假设某人有8个孩子(不考虑双胞胎,生男和女的可能性都是0.5),计算有7个以上是女孩的概率。

代码语言:javascript复制
choose(8,7) * 0.5^8   choose(8,8) * 0.5^8
[1] 0.03515625
pbinom(6, size = 8, prob = 0.5, lower.tail = FALSE)
[1] 0.03515625

pbiom函数计算 的概率。

➢正态分布

服从正态分布(也称高斯分布)的随机变量 均值为?,方差为 。

概率密度函数PDF为: 。

标准正态分布为 ,此时随机变量用 表示。

如果 ~ ,那么 ~ ;反之,~ 。

・正态曲线下,横轴区间(?-?,? ?)内的面积约为68%;横轴区间(?-2?,? 2?)内的面积约为95%;横轴区间(?-3?,? 3?)内的面积约为99%;即变量值x落在(?-3?,? 3?)区间的概率约为99%。

・标准正态分布的第1百分位数、第2.5百分位数、第5百分位数、第10百分位数分别为-1.28、-1.645、-1.96、-2.33;相应的,标准正态分布的第90百分位数、第95百分位数、第97.5百分位数、第99百分位数分别为1.28、1.645、1.96、2.33。

・正态分布 的第95百分位数为? 1.645?。在R中通过qnorm( )得到。

例:假设某网页的日点击量服从均值为1020,标准差为50的正态分布。计算某日点击量超过1160次的概率。

代码语言:javascript复制
pnorm(1160, mean = 1020, sd = 50, lower.tail = FALSE)#lower.tail=FALSE表示取右尾
[1] 0.00255513
#由于计算可知1160与均值1020之间相差2.8个标准差
pnorm(2.8, lower.tail = FALSE)
[1] 0.00255513

计算日点击量为多少时能高于75%的时间的日点击量?

代码语言:javascript复制
options(digits=0)
qnorm(0.75, mean = 1020, sd = 50)
[1] 1054
➢泊松分布

泊松分布Poisson(?)用于描述单位时间内随机事件发生的次数。λ是单位时间(或单位面积)内随机事件的平均发生率。泊松分布的期望和方差均为?。

概率质量函数PMF为:

应用:

1.建立计数数据模型; 2.建立事件-时间或生存数据模型; 3.建立列联表数据模型; 4.当二项分布X ~ Binomial(n,p)的n很大而p很小时,泊松分布可作为二项分布的近似,其中?为np,常用于流行病学领域。

假设随机变量X ~ Poisson(?t),则 是每单位时间的预期事件发生频率;t是总观察时间。

例:假设出现在公交站的人数服从泊松分布,平均每小时2.5人。观察公交站4小时,计算出现3个或更少人的概率。

代码语言:javascript复制
ppois(3, lambda = 2.5 * 4)
[1] 0.01034

例:假设抛一枚不规则的硬币正面向上的概率为0.01,抛500次,计算两次或更少正面向上的概率。

代码语言:javascript复制
pbinom(2, size = 500, prob = 0.01)
[1] 0.1234

ppois(2, lambda = 500 * 0.01)
[1] 0.1247

当n很大而p很小时,二项分布与泊松分布十分接近。

编辑:李雪纯 冯文清

校审:张健 罗鹏

0 人点赞