统计中的各种分布

2020-07-29 16:58:09 浏览数 (1)

  • 大数定理:当样本数量足够大时,这些样本的均值无限接近总体的期望。
  • 中心极限定理:不管样本总体服从什么分布,当样本数量足够大时,样本的均值以正态分布的形式围绕总体均值波动。

1. 伯努利分布:伯努利分布:伯努利试验单次随机试验,只有"成功(值为1)"或"失败(值为0)"这两种结果。又名两点分布或者0-1分布。

期望值:E(x)=p;

方差:Var(x)=pq;

2. 二项分布:假设某个试验是伯努利试验,其成功概率用p表示,那么失败的概率为q=1-p。进行n次这样的试验,成功了x次,则失败次数为n-x,发生这种情况的概率可用下面公式来计算(伯努利分布是二项分布在n = 1时的特殊情况):

如果X ~ B(n, p)(也就是说,X是服从二项分布的随机变量),那么X的期望值为:

方差为:

3. 几何分布:几何分布(GeometricDistribution):在伯努利试验中,得到一次成功所需要的试验次数X。X的值域是{ 1, 2, 3,... }; 在得到第一次成功之前所经历的失败次数Y = X − 1。Y的值域是{ 0, 1, 2,3, ... }。那么k次试验中,第k次才得到成功的概率是:

期望和方差分别为:

4. 泊松分布:泊松分布解决的是“在特定时间里发生n个事件的机率”。泊松分布适合于描述单位时间内随机事件发生的次数的概率分布。如某一服务设施在一定时间内受到的服务请求的次数,电话交换机接到呼叫的次数、汽车站台的候客人数、机器出现的故障数、自然灾害发生的次数、DNA序列的变异数、放射性原子核的衰变数、激光的光子数分布等等,参数λ是单位时间(或单位面积)内随机事件的平均发生率:

泊松分布的期望值和方差都是λ。在二项分布中,如果试验次数n很大,二项分布的概率p很小,且乘积λ= np比较适中,则事件出现的次数的概率可以用泊松分布来逼近。

5. 正态分布又名高斯分布(英语:Gaussiandistribution),是一个非常常见的连续概率分布,其概率密度函数为:

通常所说的标准正态分布是位置参数mu =0,尺度参数sigma^2 = 1的正态分布。

6. 指数分布:指数分布(英语:Exponentialdistribution)是一种连续概率分布。指数分布是描述泊松分布中事件发生时间间隔的概率分布。指数分布可以用来表示独立随机事件发生的时间间隔,比如旅客进入机场的时间间隔、打进客服中心电话的时间间隔、中文维基百科新条目出现的时间间隔等等。指数分布解决的问题是“要等到一个随机事件发生,需要经历多久时间”。一个指数分布的概率密度函数是:

其中λ > 0是分布的一个参数,常被称为率参数(rate parameter)。即每单位时间发生该事件的次数。指数分布的区间是[0,∞)。如果一个随机变量X 呈指数分布,则可以写作:X ~ Exponential(λ)。

期望:

方差:

7. T分布:根据中心极限定理,只要样本量足够大, 统计量的 抽样分布(如样本均值)将遵循正态分布。

但是样本量有时很小,并且我们通常不知道总体的标准偏差。

当这些问题中的任何一个出现时,统计学家依赖 t统计量(也称为 t分数)的分布,其值由下式给出:

t = [ x -μ] / [s / sqrt(n)]

其中x是样本均值,μ是总体均值,s是样本的标准偏差,n是样本大小。所述的分布被称为 t分布。

用于根据小样本来估计呈正态分布且方差未知的总体的平均值。如果方差已知(例如在样本数量足够多时),则应该用正态分布来估计总体均值。

(英国人威廉·戈塞(Willam S. Gosset)于1908年再次发现并发表了t分布,当时他还在爱尔兰都柏林的吉尼斯(Guinness)啤酒酿酒厂工作。酒厂虽然禁止员工发表一切与酿酒研究有关的成果,但允许他在不提到酿酒的前提下,以笔名发表t分布的发现,所以论文使用了“学生”(Student)这一笔名。之后t检定以及相关理论经由罗纳德·费雪(Sir Ronald Aylmer Fisher)发扬光大,为了感谢戈塞的功劳,费雪将此分布命名为学生t分布(Student's t))

8. 伽马分布:假设X1, X2, ... Xn 为连续发生事件的等候时间,且这n次等候时间为独立的,那么这n次等候时间之和Y (Y=X1 X2 ... Xn)服从伽玛分布,即 Y~Gamma(α , β),其中α = n, β = λ。这里的 λ 是连续发生事件的平均发生频率。指数分布是伽玛分布α = 1的特殊情况。伽玛分布解决的问题是“要等到n个随机事件都发生,需要经历多久时间”。所以,伽玛分布可以看作是n个指数分布的独立随机变量的加总:

这里a=n, 当a=1时,伽马分布就是指数分布,所以伽马分布就是n个指数分布的和。伽马分布期望和方差:

Gamma分布中的参数α称为形状参数(shape parameter),β(就是λ)称为尺度参数(scale parameter)。

9. 卡方分布:chi-squaredistribution。k个独立的标准正态分布变量的平方和服从自由度为k的卡方分布。若k个独立的随机变量Z1,Z2,⋯,Zk,且符合标准正态分布N(0,1),则这k个随机变量的平方和:

服从卡方分布,记为:

卡方分布的期望,其中n为卡方分布的自由度。:

方差,其中n为卡方分布的自由度。:

χ2表示观察值与理论值之间的偏离程度。

χ2的计算公式:

其中,A为实际值,T为理论值。自由度的概念:自由度v=(行数-1)*(列数-1)。

0 人点赞