机器学习概率基础:除了偏度、峰度还有矩量母函数

2021-09-08 15:23:21 浏览数 (1)

本篇介绍随机变量和概率分布的基本概念,以及有关概率分布的一些简单统计量,它们构成了概率和统计的基础知识。

11 基本概念

当投掷六面骰子时,可能结果有 ,没有其他结果。这种可能的结果称为样本点,所有样本点的集合称为样本空间。

这里出现了两个东西,样本点及其集合。对,就是用集合语言来描述这些内容。

事件定义为样本空间的一个子集。例如,出现任意奇数点数的事件 表示为

没有样本点的事件称为空事件,用 表示。仅由一个样本点组成的事件称为基本事件,而由多个样本点组成的事件称为复合事件。包含所有可能样本点的事件称为整个事件。

至少发生了 和 事件之一的事件称为事件的并集,并用 表示。例如,出现奇数的事件 与出现小于或等于 的事件 的并集表示为

另一方面,事件 和 同时发生的事件称为事件的交集,用 表示。上面的事件 和 的交集为

如果事件 和 永远不会同时发生,即

则 和 事件称为不相交事件。出现奇数的事件和出现偶数的事件不能同时发生,因此是不相交的。对于 和 事件,以下分配定律成立:

对照上面公式和下图,回忆一下中学集合论里的文氏图。

由集合的补集概念很容易想到所谓的补事件。样本空间中除去事件 中样本点后剩下的样本点构成的事件称为 的补事件,用 表示。出现奇数的事件的补事件是不出现奇数,即出现偶数。对于事件 和 的并集和交集,遵循以下德·摩根(De Morgan)定律:

22 概率

概率是对事件发生的可能性的度量,而事件 发生的概率用 表示。俄国数学家科莫哥洛夫(Kolmogorov)通过以下三个公理来定义了概率,而这些公理是对概率显然应该满足的特性的一种抽象。

1.非负性:对于任意事件

2.归一性(幺正性):适用于整个样本空间。

3.可加性:对于不相交事件的任何可数序列,

从上述公理可以看出,事件 和 满足以下加法法则。

这同样使用于两个以上的事件:对于 和 事件,

投掷骰子示例(离散均匀分布 )

33 随机变量和概率分布

如果将概率分配给变量的每个取值,则该变量称为随机变量。概率分布是描述从随机变量的取值到概率的映射的函数。

可数集是其元素可以枚举为 的集合。在一个可数集中取一个值的随机变量称为离散随机变量。请注意,可数集的大小不必是有限的,可以是无限的,例如所有自然数的集合。如果离散随机变量 的每个值的概率为

其中, 称为概率质量函数。注意 应该满足

投掷一个六面均匀的骰子 的结果是一个离散的随机变量,其概率质量函数由 给出。

具有连续值的随机变量称为连续随机变量。如果连续随机变量 在 中取值的概率为

被称为概率密度函数,需要注意的是 应该满足

例如,旋转轮盘 的结果是一个连续的随机变量,其概率密度函数由 给出。请注意,式(1)也有一个重要的含义,即连续随机变量 正好取值 的概率实际上为零:

比如,旋转轮盘赌的结果恰好是特定角度的可能性为零。

连续随机变量 的值小于或等于 的概率,

称为累积分布函数。

概率密度函数和累积分布函数

累积分布函数 满足以下属性:

  • 单调非减: 时有 。
  • 左极限:。
  • 右极限:。

如果存在累积分布函数的导数,那么它就是概率密度函数:

称为上尾概率或右尾概率,而 称为下尾概率或左尾概率。

上尾概率和下尾概率一起称为双侧概率,而它们中的任何一个都称为单侧概率。

44 概率分布的性质

在讨论概率分布的性质时,使用简单的统计量来概括概率质量/密度函数会带来方便。在本节中,将介绍此类统计量。

数学期望、中位数和众数

数学期望(Expectation)字面上是指期望随机变量取到的值。当然用文字表达比较含糊,具体还是看公式。用 表示的随机变量 的期望定义为根据概率质量/密度函数 加权的 的平均值,

请注意,存在诸如柯西(Cauchy)分布之类的概率分布,它们的期望并不存在(例如趋于无穷大)。对于 的任何函数 ,可以类似地定义它们的期望:

离散型

对于常数 ,期望运算 满足以下属性:

尽管期望代表了概率分布的中心,但当有异常值存在时,它与直观期望的差距可能很大。

例如,收入分配中,由于一个人赚取 100 万美元,直接把期望值拉高到 美元,以至于让所有其他人都低于平均值。这就是网络上大家常说的被平均

在这种情况下,中位数(Median)比期望值更合适,中位数定义为使得下式成立的 值,

也就是说,中位数是概率分布的中心,就其而言,它是不管从左侧还是右侧开始数的中间点。在示例中,中位数为 美元,确实位于人群中间。另外,还会用到中位数的扩展,当 的 -分位数,即使得下式成立的 值,

也就是说,-分位数从左侧给出了 点,而当 时就是中位数。

让我们考虑在区间 上定义的概率密度函数 ,而所谓的期望平方误差定义为

使得它取极小值的 值,事实上正是 的期望。类似地,使得期望绝对误差

取最小值的 值也是 的期望值。此外,式 (2) 的加权变体,

使得它取极小值的 值,正是 的 -百分位。

另一个常用的统计量是众数(Mode),它是一组数据中出现次数最多的数值,被定义为使得 取最大值的 值。

方差和标准差

尽管期望是表征概率分布的有用统计量,但是即使概率分布具有相同的期望,它们也可以不同。接下来我们引入另一个称为方差的统计量,以表示概率分布的分散情况。随机变量 的方差 定义为

实际上,可以将以上表达式展开,

通常会使计算变得更容易。对于常数 ,方差运算 满足以下性质:

可以看到,这些性质与期望的性质完全不同。

方差的平方根称为标准差,用 表示,

通常,方差和标准差分别用 和 表示。

偏度、峰度和矩

除了期望和方差之外,还经常使用诸如偏度(Skewness)和峰度(Kurtosis)之类的高阶统计量。偏度和峰度分别表示概率分布的不对称性和尖锐度,它们分别定义为

分母中的 和 用于规范化处理,峰度定义中包含的 将正态分布的峰度归零。

如上图所示,如果偏度为正,则右侧尾比左侧尾要长;如果偏度为负,则左侧尾比右侧尾长。如果偏度为零,则分布是完全对称的。

如上图所示,如果峰度为正,则概率分布比正态分布更尖锐;如果峰度为正,则概率分布比正态分布更钝。

以上讨论说明了该统计量,

在表征概率分布中起着重要作用。 称为关于期望的 阶矩,而

被称为关于原点的第 阶矩。期望值、方差、偏度和峰度可通过使用 统一表示,

  • 期望值:, 方差:
  • 偏度:
  • 峰度:

5矩量母函数

如果指定了期望、方差、偏度和峰度,那么概率分布在一定程度上就被确定下来了。但是,如果我们该如何用更多的特征来描述分布呢?

其实,像平均值、方差、偏度和峰度这些特征统一被称为,那么有没有一个函数能够计算所有矩呢?有的,那就是所谓的矩量母函数(Moment generating function)。有了它,我们可以通过微分来计算各种矩,而不是用积分算,这样就简化了计算。

作为一个极限情况,如果指定了所有阶的矩,那么概率分布可以唯一地确定下来。矩量母函数使我们能够系统地处理所有阶的矩:

的确,将零代入矩量母函数关于 的 阶导数 ,可得 阶矩:

下面证明了这一事实。

函数 关于 的 阶导数为 ,函数 关于 在原点处的泰勒展开式为,

两边分别计算期望,得

两边求导,得

将 代入其中得 。

对于某些概率分布,矩量母函数可能并不存在(例如发散到无穷大)。但它有个兄弟却是始终存在,即特征函数(Characteristic function),

其中 表示虚数单位,使得 。实际上,对概率密度函数作傅立叶变换即得到特征函数。

那么,这些函数有什么用途呢?关于这个我们下回再谈。

0 人点赞