本篇介绍随机变量和概率分布的基本概念,以及有关概率分布的一些简单统计量,它们构成了概率和统计的基础知识。
11 基本概念
当投掷六面骰子时,可能结果有 ,没有其他结果。这种可能的结果称为样本点,所有样本点的集合称为样本空间。
这里出现了两个东西,样本点及其集合。对,就是用集合语言来描述这些内容。
事件定义为样本空间的一个子集。例如,出现任意奇数点数的事件 表示为
没有样本点的事件称为空事件,用 表示。仅由一个样本点组成的事件称为基本事件,而由多个样本点组成的事件称为复合事件。包含所有可能样本点的事件称为整个事件。
至少发生了 和 事件之一的事件称为事件的并集,并用 表示。例如,出现奇数的事件 与出现小于或等于 的事件 的并集表示为
另一方面,事件 和 同时发生的事件称为事件的交集,用 表示。上面的事件 和 的交集为
如果事件 和 永远不会同时发生,即
则 和 事件称为不相交事件。出现奇数的事件和出现偶数的事件不能同时发生,因此是不相交的。对于 和 事件,以下分配定律成立:
对照上面公式和下图,回忆一下中学集合论里的文氏图。
由集合的补集概念很容易想到所谓的补事件。样本空间中除去事件 中样本点后剩下的样本点构成的事件称为 的补事件,用 表示。出现奇数的事件的补事件是不出现奇数,即出现偶数。对于事件 和 的并集和交集,遵循以下德·摩根(De Morgan)定律:
22 概率
概率是对事件发生的可能性的度量,而事件 发生的概率用 表示。俄国数学家科莫哥洛夫(Kolmogorov)通过以下三个公理来定义了概率,而这些公理是对概率显然应该满足的特性的一种抽象。
1.非负性:对于任意事件
2.归一性(幺正性):适用于整个样本空间。
3.可加性:对于不相交事件的任何可数序列,
从上述公理可以看出,事件 和 满足以下加法法则。
这同样使用于两个以上的事件:对于 和 事件,
投掷骰子示例(离散均匀分布 )
33 随机变量和概率分布
如果将概率分配给变量的每个取值,则该变量称为随机变量。概率分布是描述从随机变量的取值到概率的映射的函数。
可数集是其元素可以枚举为 的集合。在一个可数集中取一个值的随机变量称为离散随机变量。请注意,可数集的大小不必是有限的,可以是无限的,例如所有自然数的集合。如果离散随机变量 的每个值的概率为
其中, 称为概率质量函数。注意 应该满足
投掷一个六面均匀的骰子 的结果是一个离散的随机变量,其概率质量函数由 给出。
具有连续值的随机变量称为连续随机变量。如果连续随机变量 在 中取值的概率为
被称为概率密度函数,需要注意的是 应该满足
例如,旋转轮盘 的结果是一个连续的随机变量,其概率密度函数由 给出。请注意,式(1)也有一个重要的含义,即连续随机变量 正好取值 的概率实际上为零:
比如,旋转轮盘赌的结果恰好是特定角度
的可能性为零。
连续随机变量 的值小于或等于 的概率,
称为累积分布函数。
概率密度函数和累积分布函数
累积分布函数 满足以下属性:
- 单调非减: 时有 。
- 左极限:。
- 右极限:。
如果存在累积分布函数的导数,那么它就是概率密度函数:
称为上尾概率或右尾概率,而 称为下尾概率或左尾概率。
上尾概率和下尾概率一起称为双侧概率,而它们中的任何一个都称为单侧概率。
44 概率分布的性质
在讨论概率分布的性质时,使用简单的统计量来概括概率质量/密度函数会带来方便。在本节中,将介绍此类统计量。
数学期望、中位数和众数
数学期望(Expectation)字面上是指期望随机变量取到的值。当然用文字表达比较含糊,具体还是看公式。用 表示的随机变量 的期望定义为根据概率质量/密度函数 加权的 的平均值,
请注意,存在诸如柯西(Cauchy)分布之类的概率分布,它们的期望并不存在(例如趋于无穷大)。对于 的任何函数 ,可以类似地定义它们的期望:
离散型
对于常数 ,期望运算 满足以下属性:
尽管期望代表了概率分布的中心
,但当有异常值存在时,它与直观期望的差距可能很大。
例如,收入分配中,由于一个人赚取 100 万美元,直接把期望值拉高到 美元,以至于让所有其他人都低于平均值。这就是网络上大家常说的被平均
。
在这种情况下,中位数(Median)比期望值更合适,中位数定义为使得下式成立的 值,
也就是说,中位数是概率分布的中心
,就其而言,它是不管从左侧还是右侧开始数的中间点。在示例中,中位数为 美元,确实位于人群中间。另外,还会用到中位数的扩展,当 的 -分位数,即使得下式成立的 值,
也就是说,-分位数从左侧给出了 点,而当 时就是中位数。
让我们考虑在区间 上定义的概率密度函数 ,而所谓的期望平方误差定义为
使得它取极小值的 值,事实上正是 的期望。类似地,使得期望绝对误差
取最小值的 值也是 的期望值。此外,式 (2) 的加权变体,
使得它取极小值的 值,正是 的 -百分位。
另一个常用的统计量是众数(Mode),它是一组数据中出现次数最多的数值,被定义为使得 取最大值的 值。
方差和标准差
尽管期望是表征概率分布的有用统计量,但是即使概率分布具有相同的期望,它们也可以不同。接下来我们引入另一个称为方差的统计量,以表示概率分布的分散情况。随机变量 的方差 定义为
实际上,可以将以上表达式展开,
通常会使计算变得更容易。对于常数 ,方差运算 满足以下性质:
可以看到,这些性质与期望的性质完全不同。
方差的平方根称为标准差,用 表示,
通常,方差和标准差分别用 和 表示。
偏度、峰度和矩
除了期望和方差之外,还经常使用诸如偏度(Skewness)和峰度(Kurtosis)之类的高阶统计量。偏度和峰度分别表示概率分布的不对称性和尖锐度,它们分别定义为
分母中的 和 用于规范化处理,峰度定义中包含的 将正态分布的峰度归零。
如上图所示,如果偏度为正,则右侧尾比左侧尾要长;如果偏度为负,则左侧尾比右侧尾长。如果偏度为零,则分布是完全对称的。
如上图所示,如果峰度为正,则概率分布比正态分布更尖锐;如果峰度为正,则概率分布比正态分布更钝。
以上讨论说明了该统计量,
在表征概率分布中起着重要作用。 称为关于期望的 阶矩,而
被称为关于原点的第 阶矩。期望值、方差、偏度和峰度可通过使用 统一表示,
- 期望值:, 方差:
- 偏度:
- 峰度:
5矩量母函数
如果指定了期望、方差、偏度和峰度,那么概率分布在一定程度上就被确定下来了。但是,如果我们该如何用更多的特征来描述分布呢?
其实,像平均值、方差、偏度和峰度这些特征统一被称为矩
,那么有没有一个函数能够计算所有矩呢?有的,那就是所谓的矩量母函数(Moment generating function
)。有了它,我们可以通过微分来计算各种矩,而不是用积分算,这样就简化了计算。
作为一个极限情况,如果指定了所有阶的矩,那么概率分布可以唯一地确定下来。矩量母函数使我们能够系统地处理所有阶的矩:
的确,将零代入矩量母函数关于 的 阶导数 ,可得 阶矩:
下面证明了这一事实。
函数 关于 的 阶导数为 ,函数 关于 在原点处的泰勒展开式为,
两边分别计算期望,得
两边求导,得
将 代入其中得 。
对于某些概率分布,矩量母函数可能并不存在(例如发散到无穷大)。但它有个兄弟却是始终存在,即特征函数(Characteristic function
),
其中 表示虚数单位,使得 。实际上,对概率密度函数作傅立叶变换即得到特征函数。
那么,这些函数有什么用途呢?关于这个我们下回再谈。