基于概率论的数理统计也即概率统计是现代科学研究的基础工具与方法论,错误的理解与使用概率统计也可能会导致完全错误的研究结果。即使现在,我们随便抽出一篇微生物组学研究的paper,都有可能发现其中概率统计的瑕疵,诸如线性回归算法样品数少于变量数、R2与P值未作校正、聚类结果未作检验等。无论任何时候,我们都应该尝试去反思:我的概率统计知识够吗?
接下来,我会更一系列文章,带领大家重新温故概率论与线性代数,深入认识概率统计的方法论,并结合R语言边学习、边实践(R是本公众号唯一推荐学习工具,真的会比SPSS、SAS要简单!)。
概率论
自然界中的现象可分为两类:确定性现象、统计性现象,蕴藏于其中的规律分别为确定性规律和统计性规律。与万有引力定律、安培定律等确定性规律不同,统计性规律只有在试验次数或观察次数足够多的情况下才能呈现出来,在个别试验或观察中出现的不确定性称之为随机现象。
对于随机试验或观测,尽管每次试验的结果不可预测,但总的结果集合是可以预测的,例如抛掷一枚硬币落地后其结果只有两种(正面朝上或者反面朝上)。所有可能的观测结果集合为样本空间,每次观测的点为样本点,样本点的数目为样本容量。对于每个样本点,其试验或观测的结果称之为事件,在一定样本容量内不同事件或事件集合出现的次数与样本容量之比称之为该事件的频率。只有样本容量足够大时,才能使频率趋近概率(probability)、使事件的发生结果趋近统计规律。
对于一个样本空间S,假如B1、B2、B3…Bn为试验E的一组互不重叠(任意两个事件交集为空集)的事件,而且B1∪B2∪B3∪…∪Bn=S,则称B1、B2…Bn为样本空间S的一个划分,统计规律即是该划分下不同事件发生的概率分布。为了便于进行统计分析,我们常常将这些划分中的事件与实数对应起来(将其数据化),并储存在随机变量里,随机变量是样本空间上的实值单值函数。例如记随机变量X为3次抛掷硬币正面朝上的次数,或者观测河流某一点处流速的大小。对于每一种统计性现象,均通过大量试验或观测来获得统计规律是不现实的。经过长时间的科学研究与经验积累,人们发现很多统计性现象中不同事件的概率分布或者说随机变量的分布存在相似的分布模型。
基于上面这些概率论的内容,深入的分析研究试验获得的样本数据,分析随机现象的内在规律,并进行一定程度的判断和预测,就是概率统计。
1一维随机变量
⑴离散型随机变量
有些随机变量只能取有限或无限个离散值,例如1、2、3…称之为离散型随机变量。离散型随机变量取不同值时的概率变化为离散型随机变量的分布律,所有取值其概率之和为1。离散型随机变量常见的几种分布律如下所示:
①伯努利分布
伯努利分布也叫0-1分布或者两点分布,是一种最简单的分布律。假设一个实验只有两个互不重叠的可能结果,记随机变量X为其中一个结果出现的次数,p为这个结果出现的概率,那么X只可能取值0、1,它的分布律是:
这时我们称X服从以p为参数的伯努利分布。服从两点分布的随机变量在日常生活中也是比较常见的,例如抛掷一次硬币正面朝上的次数,观察一次新生儿的性别等,这样的试验我们称之为伯努利试验。
②二项分布
二项分布是对两点分布的拓展,考虑n次重复的伯努利实验,且每次试验相互独立,记随机变量X为其中一个结果出现的次数,p为每次试验这个结果出现的概率,则X可取0、1、2…n,它的分布律为:
这时我们称X服从以p为参数的二项分布。可以看出,伯努利分布是二项分布的特殊情况(n=1)。服从二项分布的随机变量广泛存在,例如100个病人中服用某药物康复的人数,以及100台独立工作的仪器出故障的台数等。
③泊松分布
前面两种分布均是变量数目有限的情况,假如随机变量X可取值0、1、2…无限个离散值,且其分布律为:
这时我们称X服从以λ为参数的泊松分布。其中参数λ是单位时间(或单位面积)内随机事件的平均发生率,所以泊松分布适合于描述单位时间内随机事件发生的次数,例如在一小时内到达某公交车站的人数、机器出现的故障数,显微镜下单位面积内的细菌数目等。泊松分布由二项分布推导而来,当二项分布的n很大、p很小时,泊松分布可作为二项分布的近似(泊松定理),其中λ为np。
⑵连续型随机变量
有些随机变量可以取两个值之间的任意值,称之为连续型随机变量。连续型随机变量不同取值时的累积概率为连续型随机变量的分布函数,不同取值时的概率变化为连续型随机变量的概率密度函数,分布函数为概率密度函数的积分。
设X是一个随机变量,x为任意函数,则X的分布函数为:
当x为无穷大时,F(∞)=1。若存在函数f(x),使得:
则称f(x)为X的概率密度函数,简称概率密度。连续型随机变量的概率密度函数与离散型随机变量的分布律相对应。连续型随机变量常见的几种概率密度函数如下所示:
①均匀分布
若随机变量X具有概率密度:
则称X服从区间(a,b)上的均匀分布。其分布函数为:
均匀分布是一种最简单的分布函数,是一种等概率的分布,例如做匀速圆周运动的物体出现在某一段圆弧上的概率等。
②指数分布
若随机变量X具有概率密度:
其中θ为大于0的常数,则称X服从参数为θ的指数分布。其分布函数为:
参数1/θ也可以用λ代替,也即f(x)=λe-λx,λ被称为率参数(rateparameter),即每单位时间内发生某事件的比率或者概率,例如设λ为单位时间内放射性核的衰变概率也即衰变常数,那么放射性元素的数目随时间变化就呈现指数分布。指数函数具有无记忆性,也即不管元素已经衰变多少,未来t时间内衰变的元素比例总是相同。
③正态分布
正态分布是科学研究中最常见的一种分布模型,若随机变量X具有概率密度:
其中σ、μ为为常数(σ>0),则称X服从参数σ、μ的正态分布或者高斯分布,也叫常态分布,记为N(μ,σ2)。其分布函数为:
当σ=1、μ=0时,正态分布就成为标准正态分布(亦称u分布):
我们可以通过一个变换Z=(X-μ)/σ来将符合正态分布的随机变量X转换为标准正态分布,这个转换称为u转换。根据正态分布概率密度函数,在X=μ时概率最大,函数关于X=μ对称。随机变量落在μ±σ、μ±2σ、μ±3σ内的概率分别为68.26%、95.44%、99.74%,可以看出,随机变量X的值落在μ±3σ内几乎是肯定的,也即“3σ”法则。在符合正态分布的随机变量里,μ即样本总体的数学期望或者一阶矩记为E(X),σ为样本总体的标准差(方差D(X)的平方根)记为。期望与概率密度函数(分布律)的关系如下所示:
上式称为概率分布的矩函数。
2多维随机变量
很多情况下随机事件的结果不能储存在一维的随机向量里,例如入学儿童的发育情况(身高、体重)、炮弹的落地点(经度、维度),单独讨论其中一个例如身高、经度是没有意义的,这时候需要两维甚至多维随机变量来储存随机事件的发生结果。接下来我们以二维随机变量(X,Y)为例进行说明。
对于二维离散型随机变量,那么P{X=xi,Y=yi}为二维随机变量(X, Y)的分布律,或者X和Y的联合分布律;对于二维连续型随机变量,F(x, y)=P{X≤x, Y≤y}为二维随机变量(X,Y)的分布函数,或者X和Y的联合分布函数,其对应的概率密度函数为联合概率密度。
⑴边缘分布
假如二维随机变量(X, Y)具有分布函数F(x, y),而X和Y也具有各自的分布函数计为FX(x)、FY(y),我们称其为二维随机变量关于X和Y的边缘分布函数,实际上有:
当其中一个随机变量取值趋向于无穷大,则其分布函数趋向于1,这时联合分布函数近似于另一个随机变量的分布函数也即边缘分布函数。其边缘概率密度分别为:
假如二维随机变量(X, Y)具有联合概率密度:
那么其服从参数为σ1、μ1、σ2、μ2、ρ的二维正态分布。其中-1≤ρ≤1为随机变量X与Y的相关系数:
其中Cov(X,Y)=E{[X-E(X)][Y-E(Y)]}为X与Y的协方差,若X、Y完全独立,则协方差为0。
⑵条件分布
条件分布类似于偏微分的概念。对于二维离散型随机变量(X, Y),我们称:
为Y=yj条件下随机变量X的条件分布律;同理:
为X=xi条件下随机变量Y的条件分布律。同理对于连续随机变量:
为Y=y条件下X的条件概率密度。
在几何意义上,条件分布(概率密度)可以看作空间曲面上的一条截面曲线,边缘分布是条件分布的密度权积分(也即曲线每一点使用另一维度积分加权),偏微分可以说是条件分布的导数。
设G是平面上的有界区域,其面积为A,若二维离散型随机变量(X, Y)具有概率密度:
则称其在G上服从二维均匀分布。
⑶独立分布
对于二维随机变量(X, Y),若有:
则称二维随机变量(X,Y)满足独立分布,其X和Y是相互独立的。独立分布的随机变量其相关系数ρ为0。
⑷协方差矩阵
协方差矩阵是储存随机变量方差与协方差的矩阵,是一个对称阵,二维随机变量(X1, X2)的协方差矩阵如下所示:
其中各元素含义为:
也即对角线上的元素分别为两个随机变量样本总体的方差,两边则为两个随机变量之间的协方差(c12=c21)。两个随机变量的相关系数即为c12/sqrt(c11c22),如果有n个随机变量,那么其协方差矩阵为:
一般情况下,随机变量的分布规律是未知的,所以协方差矩阵非常重要,它储存了随机变量两两之间的关系。
3总体抽样分布
概率论中的分布模型是对数学对象的推演结果,然后在已知分布模型的基础上研究随机变量的性质、特点和规律。然而实际研究中样本容量是有限的,而且拿到的试验数据往往不知其分布模型,需要经过数理统计的方法对其作出种种推断来观察其分布规律。
概率论中的随机变量、样本空间等都是数学概念,实际不存在。在数理统计中,我们试验或观测的结果为随机样本,每一个观察值为个体(与随机变量相对应),样本中个体的数目为样本容量;全部可能的观察值为总体(可以理解为概率论中样本空间的一组观测值),总体中个体数目为容量。数理统计的核心问题之一就是通过样本来估计总体分布的参数。
假设n个变量X1、X2、X3...Xn是来自总体的一个样本,g(X1,X2, X3...,Xn)是样本的一个不含未知参数的函数,那么称其为一个统计量(statistic)。统计量中取值不受限制的变量的个数为自由度,若X1、X2、X3...Xn相互独立,其自由度为n。统计量的分布称为抽样分布,其分布函数为经验分布函数。例如假设统计量为g=E(X1, X2,X3...,Xn),也即这些变量的均值,那么假如X1、X2、X3...Xn来自正态分布总体,那么抽样样本的均值g其抽样分布也为正态分布,这个规律为中心极限定理。
⑴卡方分布
假如X1、X2、X3...Xn是来自符合标准正态分布N(0, 1)总体的一个样本,那么下面的统计量:
服从自由度为k的卡方分布,若样本个体相互独立,k=n。可以通俗地理解为标准正态总体的随机样本的平方和服从卡方(chi-squared)分布,其概率密度函数为:
其中
为伽玛函数。卡方分布是一个正态偏分布,当n很大时,卡方分布趋近于正态分布。卡方分布的期望等于自由度n,方差为2倍自由度2n。
⑵t分布
假如随机变量X~N(0, 1),Y~卡方分布,且X、Y相互独立,那么统计量:
服从服从自由度为n的t分布(t(n)分布),也称学生t分布。其概率密度函数为:
t分布概率密度函数与正态分布类似,关于t=0对称,当n无穷大时t分布就是标准正态分布,t分布期望为0。
⑶F分布
假设
,且U和V相互独立,那么随机变量:
服从自由度为(n1,n2)的F分布。其概率密度函数为:
与卡方分布一样,F分布也是非对称分布。F分布具有两个自由度,不同自由度决定了概率密度的分布。
⑷正态总体参数分布
根据中心极限定理,正态总体的样本的均值仍服从正态分布。假如样本X1、X2、X3...Xn来自正态总体N(μ, σ2),S2为样本方差,则有样本均值:
假如样本X1、X2、X3...Xn1与Y1、Y2、Y3...Yn2来自正态总体N(μ1, σ12)与N(μ2, σ22),S12与S22为样本方差,则有:
如果说中心极限定理是正态总体样本均值的分布转换,卡方分布是关于方差的分布转换,而t分布则是利用中心极限定理和卡方分布对样本参数进行的t转换(估计u转换),F分布则是考察两个样本的比较情况。这三种分布都是正态总体的抽样分布,其本质是将正态分布的样本参数转换为一种固定的标准分布,以便可以查表查询,方便之后的参数估计与假设检验。抽样统计量的分布及其估计对于自由度十分敏感,因此要注意自由度的确定。