1. 期望(expectation)
期望是指随机变量试验中每次可能结果的概率乘以其结果的总和。
对于概率质量函数为p(x)的离散随机变量X,期望值为: 。
随机变量的分布的中心就是其均值或期望值。均值改变,分布会如同均值向左或向右移动。统计推断中,用样本均值估计总体分布的均值(期望值),样本量越多,样本均值约接近总体均值。
例:HistData包中的Galton数据集,包括父母和孩子的身高。
代码语言:javascript复制library(HistData)
head(Galton)
parent child
1 70.5 61.7
2 68.5 61.7
3 65.5 61.7
4 64.5 61.7
5 64.0 61.7
6 67.5 62.2
#画出小孩身高分布柱状图及密度分布
library(ggplot2)
ggplot(data = Galton, aes(x = child))
geom_histogram(fill = "salmon",
binwidth = 1, aes(y = ..density..), colour = "black")
geom_density(size = 2)
展示估计的总体均值mu及均方误差MSE,manipulate包的manipulate函数可进行交互操作。
代码语言:javascript复制library(manipulate)
myHist <- function(mu){
g <- ggplot(Galton, aes(x = child))
g <- g geom_histogram(fill = "salmon",
binwidth=1, aes(y = ..density..), colour = "black")
g <- g geom_density(size = 2)
g <- g geom_vline(xintercept = mu, size = 2)
mse <- round(mean((Galton$child - mu)^2), 3)
g <- g labs(title = paste('mu = ', mu, ' MSE = ', mse))
g
}
manipulate(myHist(mu), mu = slider(62, 74, step = 0.5))
manipulate函数控制估计的总体均值,点击左上角的设置图标可以看到控制条。
可以看到,黑色垂线是对总体均值的估计,均值为62时均方误差为43.403;移动垂线使它接近分布的中心,均值为68时,均方误差变小。
离散随机变量的期望值可能不是实际有意义的值。
假设抛硬币结果为X,X=0表示反面向上,X=1表示正面向上。期望值E[X]=0.5×0 0.5×1=0.5。
随机变量X的均值Mu本身就是一个随机变量,也有一个分布,Mu的分布的中心和X的分布的中心相同,因此,样本均值的期望值正是它试图估计的总体均值。此时,可以说这个估计是无偏的。
2. 方差(variance)
方差是衡量随机变量离散程度。标准差(standard deviation)为方差的平方根。
概率分布中,方差定义为随机变量X与均值?之间距离平方的期望:统计描述中,总体方差 ;样本方差 。
?为总体均值, 为样本均值。
・样本方差 以估计总体方差 。
样本方差也是一个随机变量,样本方差的期望值是它试图估计的总体方差。以n-1为分母得到的才是总体方差的无偏估计,n-1为自由度。
・样本均值的期望: ;样本均值的方差: 。
・样本标准差 是对总体变化的估计,描述总体的变化情况。
・标准误(standard error) ,是样本均值的标准差,反映每次抽样样本之间的差异。
例:标准正态分布N(0,1)的方差为1,标准差为1; 个标准正态随机数均值的总体标准差为 。
代码语言:javascript复制nosim<-1000
n<-10
sd(apply(matrix(rnorm(nosim * n), nosim),1,mean))
[1] 0.3256227
模拟10000个标准正态分布随机数样本,排列成1000行10列的矩阵并计算每行的均值,对这10个IID样本的均值计算标准差sd。
代码语言:javascript复制1/sqrt(n) #10个标准正态随机数均值的总体标准差
[1] 0.3162278
标准差sd与标准正态分布均值的总体标准差十分接近。
标准均匀分布U(0,1)的方差为1/12;n个均匀分布随机数均值的总体标准差为1/√(12×n)。
代码语言:javascript复制nosim<-1000
n<-10
sd(apply(matrix(runif(nosim * n),nosim),1,mean))
[1] 0.09004656
模拟10000个均匀分布随机数,排列成1000行10列的矩阵并计算每行的均值,对这10个IID样本的均值计算标准差sd。
代码语言:javascript复制1/sqrt(12 * n)
[1] 0.09128709
两者仍然十分接近。
泊松分布Poisson(4)的方差为4;n个Poisson(4)的随机样本均值的总体标准差为2/√n。同理,
代码语言:javascript复制nosim<-1000
n<-10
sd(apply(matrix(rpois(nosim * n, 4), nosim), 1, mean))
[1] 0.6327016
2/sqrt(n)
[1] 0.6324555
例:UsingR包的father.son数据集,包含父亲和儿子的身高数据。
代码语言:javascript复制library(UsingR)
data(father.son)
x <- father.son$sheight
n <- length(x)
#画出儿子身高的直方图及密度分布
ggplot(father.son, aes(x=sheight))
geom_histogram(fill = "salmon",
binwidth=1, aes(y = ..density..), colour = "black")
geom_density(size = 2)
代码语言:javascript复制round(c(var(x), var(x) / n, sd(x), sd(x) / sqrt(n)),2)
[1] 7.92 0.01 2.81 0.09
密度分布为总体密度分布的估计。样本方差估计总体儿子身高的变异性。
假设这是一个随机样本,x的方差7.92和x的标准差2.81,表示样本数据集中儿子身高的变异性。0.01和0.09讨论儿子平均身高的变化;标准误0.09即n个儿子身高均值的分布的标准差。
3. 常见的概率分布
➢伯努利分布
伯努利分布是二项分布的特殊情况,随机变量 取值为0和1,概率分别为 和 。
概率质量函数PMF为: 。
的均值为 ,方差为 。
➢二项分布
二项分布是重复n次的伯努利分布,即二项随机变量是一组IID伯努利试验结果的和。
概率质量函数PMF为: , 。
的均值为,方差为 。
例:假设某人有8个孩子(不考虑双胞胎,生男和女的可能性都是0.5),计算有7个以上是女孩的概率。
代码语言:javascript复制choose(8,7) * 0.5^8 choose(8,8) * 0.5^8
[1] 0.03515625
pbinom(6, size = 8, prob = 0.5, lower.tail = FALSE)
[1] 0.03515625
pbiom函数计算 的概率。
➢正态分布
服从正态分布(也称高斯分布)的随机变量 均值为?,方差为 。
概率密度函数PDF为: 。
标准正态分布为 ,此时随机变量用 表示。
如果 ~ ,那么 ~ ;反之,~ 。
・正态曲线下,横轴区间(?-?,? ?)内的面积约为68%;横轴区间(?-2?,? 2?)内的面积约为95%;横轴区间(?-3?,? 3?)内的面积约为99%;即变量值x落在(?-3?,? 3?)区间的概率约为99%。
・标准正态分布的第1百分位数、第2.5百分位数、第5百分位数、第10百分位数分别为-1.28、-1.645、-1.96、-2.33;相应的,标准正态分布的第90百分位数、第95百分位数、第97.5百分位数、第99百分位数分别为1.28、1.645、1.96、2.33。
・正态分布 的第95百分位数为? 1.645?。在R中通过qnorm( )得到。
例:假设某网页的日点击量服从均值为1020,标准差为50的正态分布。计算某日点击量超过1160次的概率。
代码语言:javascript复制pnorm(1160, mean = 1020, sd = 50, lower.tail = FALSE)#lower.tail=FALSE表示取右尾
[1] 0.00255513
#由于计算可知1160与均值1020之间相差2.8个标准差
pnorm(2.8, lower.tail = FALSE)
[1] 0.00255513
计算日点击量为多少时能高于75%的时间的日点击量?
代码语言:javascript复制options(digits=0)
qnorm(0.75, mean = 1020, sd = 50)
[1] 1054
➢泊松分布
泊松分布Poisson(?)用于描述单位时间内随机事件发生的次数。λ是单位时间(或单位面积)内随机事件的平均发生率。泊松分布的期望和方差均为?。
概率质量函数PMF为:
应用:
1.建立计数数据模型; 2.建立事件-时间或生存数据模型; 3.建立列联表数据模型; 4.当二项分布X ~ Binomial(n,p)的n很大而p很小时,泊松分布可作为二项分布的近似,其中?为np,常用于流行病学领域。
假设随机变量X ~ Poisson(?t),则 是每单位时间的预期事件发生频率;t是总观察时间。
例:假设出现在公交站的人数服从泊松分布,平均每小时2.5人。观察公交站4小时,计算出现3个或更少人的概率。
代码语言:javascript复制ppois(3, lambda = 2.5 * 4)
[1] 0.01034
例:假设抛一枚不规则的硬币正面向上的概率为0.01,抛500次,计算两次或更少正面向上的概率。
代码语言:javascript复制pbinom(2, size = 500, prob = 0.01)
[1] 0.1234
ppois(2, lambda = 500 * 0.01)
[1] 0.1247
当n很大而p很小时,二项分布与泊松分布十分接近。
编辑:李雪纯 冯文清
校审:张健 罗鹏