数据科学16 | 统计推断-概率和条件概率

2020-07-03 17:00:54 浏览数 (1)

统计学一般分统计描述及统计推断两部分。统计描述是通过图表或数学方法,对数据资料进行整理后描述数据的客观规律,而统计推断则是使用从总体中随机抽取的数据样本,用样本数据总结的规律去对总体的未知特征进行推断。本章主要学习统计推断常见的概念及相关基础内容。

1. 概率(probability)

概率衡量一个随机事件发生在所有事件的集合里占的比重,是对随机事件发生的可能性的度量。

➢随机变量

随机变量(random variable)描述随机试验结果的数值,包括离散随机变量、连续随机变量。

处理离散随机变量的方法是给每一个可能的取值分配一个概率

处理连续随机变量的方法是给取值的范围分配概率

概率积分有助于理解随机概率分布的情况,在描述随机试验的数值结果时,常用概率密度函数和累积函数。

➢概率质量函数PMF(probability mass function)

概率质量函数是离散随机变量在各特定取值上的概率。

满足两个原则:

1.函数值必须大于等于0。 2.所有不同的随机结果发生的概率之和等于1。

例:抛硬币的结果 服从伯努利分布。

=0表示反面,称为“失败”, =1表示正面,称为“成功”。

概率质量函数为:如果是一枚不标准的硬币:用?表示成功的概率,用1-?表示失败的概率,0<?<1。

概率质量函数为: ➢概率密度函数PDF(probability density function)

概率密度函数是描述连续型随机变量在某个确定的取值点附近的可能性的函数。

满足原则:

1.函数值必须大于等于0。 2.函数下的总面积必须等于1。概率密度函数下的面积对应于这个随机变量的概率。

例:假设一个热线电话在任意一天内接起的电话占这一天内打来的所有电话的比例满足:

代码语言:javascript复制
x <- c(-0.5, 0, 1, 1, 1.5) 
y <- c(0,0,2,0,0)
plot(x, y, lwd = 3, frame = FALSE, type = "l")#绘制概率密度函数

需要讨论这个概率密度函数是否是一个有效的概率密度函数。

1.函数值总是大于等于0。 2.计算可知函数下的面积等于1。

所以这是一个有效的概率密度函数。

任意一天内,75%或更少的电话被接听的概率是多少?

代码语言:javascript复制
1.5 * 0.75/2
[1] 0.5625

pbeta(0.75, 2, 1)
[1] 0.5625

这个密度函数实际上是已知密度函数的一个特例——?分布。pbeta( )返回小于或等于0.75的概率。

➢累积分布函数CDF(cumulative distribution function)

PDF的取值本身不是概率,只有对连续随机变量的取值进行积分后得到概率。随机变量 的累积分布函数,返回随机变量小于或等于 的概率。既适用于离散变量,也适用于连续变量。 ➢生存函数(survival function)

生存函数是随机变量大于或等于 的概率。 注意:计算在任意一天内40%或更少(50%或更少、60%或更少)的电话被接听的概率。

代码语言:javascript复制
pbeta(c(0.4, 0.5, 0.6), 2, 1)
[1] 0.16 0.25 0.36

➢分位数(quantile)

分布函数 的第?分位数为点 ,满足: 从总体中提取随机变量值小于第95百分位数的概率是95%;从总体中提取随机变量值大于第95百分位数的概率是5%。

任意一天内 或更少的电话被接听的概率是 。

计算分布的中位数,即解 。

代码语言:javascript复制
sqrt(0.5)
[1] 0.7071068

qbeta(0.75, 2, 1)
[1] 0.7071

这意味着在约50%的日子里,约70%或更少的电话能被接听到。

通常不直接用密度计算分位数,在R中,统计函数名前面加上q,表示分位数函数。qbeta( )返回?分布的分位数。

将样本的观测值从最小到最大排序,取中位数,就是样本中位数。统计推断目标是用样本估计总体,样本中位数将估计总体中位数;样本均值将估计总体均值;样本标准差将估计总体标准差,等等。

2. 条件概率(conditional probability)

➢定义

边缘概率(又称先验概率):某个事件发生的概率,如事件 的边缘概率表示为 。

条件概率(又称后验概率):假设 ,

事件 在事件 发生的条件下发生的概率表示为 ;

当 和 相互独立时: 。

➢贝叶斯公式Bayes' rule 已知在 条件下 的发生概率,可以计算在 条件下 的发生概率。

一种疾病的检测, 表示检测结果为阳性,-表示检测结果为阴性; 表示受试者实际患病, 表示受试者实际没有患病。

评价指标

患病率prevalence

敏感性sensitivity

受试者实际患病的情况下检测结果是阳性的概率,

特异性specificity

受试者实际没有患病的情况下检测结果是阴性的概率,

阳性预测值positive predictive value

检测结果是阳性的情况下受试者实际患病的概率,

阴性预测值negative predictive value

检测结果是阴性的情况下受试者实际没有患病的概率,

阳性似然比positive likelihood ratio

敏感性/(1-特异性),

阴性似然比negative likelihood ratio

(1-敏感性)/特异性,

例:假设一项比较HIV检测效果的研究报告HIV抗体检测敏感性为99.7%,特异性为98.5%。假设一个受试者来自HIV患病率为0.1%的总体,检测结果为阳性,这种情况下计算实际患病的概率。

即 =0.997, =0.985, =0.001,求

在这个总体中,检测结果为阳性仅意味着受试者有6%的可能性患病(阳性预测值为6%)。

低阳性预测值主要是由于疾病的患病率低。 假如一个受试者经常发生高危行为,这个受试者的相关患病率会大大提高,阳性预测值也会更高。

似然比likelihood ratio

根据贝叶斯公式,可以得出:

患病的后验似然比=阳性似然比×先验似然比

检测结果为阳性的情况下患病的概率=阳性似然比×没有检测结果的情况下患病的概率

假设受试者检测HIV阳性, 。

阳性测试结果的情况下受试者实际患病的可能性是测试前的66倍。或者说,患病的假设比没有患病的假设得到多66倍的数据支持。

假设受试者检测HIV阴性, 。

阴性测试结果的情况下受试者实际患病的可能性是测试前的0.003倍。

➢独立性

当事件 和 满足: 时, 和 相互独立。

等价于: 。

任意一个属于 的随机变量 和任意一个属于 的随机变量 相互独立,即 。

当 独立于 时,

・ 独立于

・ 独立于

・ 独立于

例:连续抛两次硬币

表示正面向上, =0.5; 表示反面向上, =0.5。

表示出现一次正面向上,一次反面向上, 。

IID(independent and identically distributed)随机变量

IID随机变量之间相互独立且服从同一个分布。

IID抽样是随机抽样的默认模型,抽样样本满足IID假设,有总体代表性,可以由样本估计总体特征,许多重要的统计理论都基于变量独立同分布假设。

编辑:李雪纯 冯文清

校审:张健 罗鹏

0 人点赞