大家好,又见面了,我是你们的朋友全栈君。
论概率:从局部随机性到整体确定性
- 概率计算
-
- 概率计算三原则
- 学概率论拼的不是数学,而是语文能力
- 概率计算四步法
- 条件概率:一切概率都是条件概率
-
-
- 题目增益
- 全概率公式
-
- 题目增益
- 贝叶斯公式
-
- 题目增益
-
- 随机变量
-
- 期望:对长期价值的数字化衡量
- 方差:对风险的度量
- 离散型随机变量
- 连续型随机变量
-
- 导数
-
- 题目增益
- 不定积分
-
- 题目增益
- 定积分
- 概率分布
-
- 伯努利分布:二选一
- n 重伯努利试验:n 次二选一
- 二项分布:n 重伯努利试验,出现 k 次是
- 柏松分布:二项分布的极限
- 离散分布
- 指数分布
- 正态分布
- 数字特征、极限定理
-
- 协方差、相关系数
- 不相关、相互独立时的期望、方差
- 切比雪夫不等式
- 大数定律
- 中心极限定理
- 数理统计
概率计算
概率计算三原则
所有概率问题,都基于三个计算法则:
- 排列: P n r = n ! ( n − r ) ! P^{r}_{n} = frac{n!}{(n-r)!} Pnr=(n−r)!n!、组合: C n r = n ! r ! ( n − r ) ! C^{r}_{n} = frac{n!}{r!(n-r)!} Cnr=r!(n−r)!n!
- 加法法则:如果事件 A 和 事件 B 相互排斥,而事件 A 有 p 种产生方式,事件 B 有 q 种产生方式,则事件 ” A 或 B ” 有 p q 种产生方式。
- 乘法法则:如果事件 A 和 事件 B 相互独立,且事件 A 有 p 种产生方式,事件 B 有 q 种产生方式,则事件 ” A 与 B ” 有 p * q 种产生方式。
排列组合法则适用于结果有限,而且每种结果都是等可能性的情况。
如果说排列组合法则是针对单个随机事件的概率计算,加法法则针对的就是多个随机事件。
以两个随机事件为例,一个随机事件发生或者另一个随机事件发生的概率,也就是这两个随机事件发生其一的概率,等于两个随机事件各自发生概率的和。
三个随机事件,就是三个概率之和;四个随机事件,就是四个概率之和,这就是加法法则。
不过,加法法则也有个限定条件,就是这两个随机事件不能同时发生,我们也称之为 “互斥”。
和加法法则一样,乘法法则也是针对多个随机事件的概率计算。
以两个随机事件为例,加法法则是两个随机事件发生其一的概率,将两个随机事件各自发生的概率相加。而乘法法则是两个独立事件同时发生的概率,将两个随机事件各自发生的概率相乘就行了。
不过,乘法法则也有个限定条件,得是独立事件(如果随机事件之间没有任何关联,我们就可以说这些随机事件是相互独立的,它们之间就具备独立性)。
- 如果是独立事件,彼此互不影响,可以直接使用乘法法则。
- 如果是非独立事件,那就不能直接乘了,而是要对乘法法则做个变形。
加法原理和乘法原理最重要的区别是事件 A 和 事件 B 的关系,是 “或” 还是 “与”。
一些其他计算公式,在做题之前,全部写在草稿上:
- 独立事件: P ( A B ) = P ( A ) P ( B ) 、 P ( A ∣ B ) = P ( A ) P(AB)=P(A)P(B)、P( A| B)=P(A) P(AB)=P(A)P(B)、P(A∣B)=P(A)
- 减法公式: P ( A B ‾ ) = P ( A − B ) = P ( A ) − P ( A B ) P(Aoverline{B})=P(A-B)=P(A)-P(AB) P(AB)=P(A−B)=P(A)−P(AB)、若 A ⊂ B A subset B A⊂B,则 P ( B − A ) = P ( B ) − P ( A ) P(B-A)=P(B)-P(A) P(B−A)=P(B)−P(A)
- 加法公式: P ( A ∪ B ) = P ( A ) P ( B ) − P ( A B ) P(A cup B)=P(A) P(B)-P(AB) P(A∪B)=P(A) P(B)−P(AB)
- 条件概率: P ( B ∣ A ) = P ( A B ) P ( A ) , P ( A B ) = P ( B ) P ( A ∣ B ) = P ( A ) P ( B ∣ A ) , P ( A 1 A 2 ⋅ ⋅ ⋅ A n ) = P ( A 1 P ( A 2 ∣ A 1 ) ) ⋅ ⋅ ⋅ P ( A n ∣ A 1 A 2 ⋅ ⋅ ⋅ A n − 1 ) P( B| A)=frac{P(AB)}{P(A)},P(AB)=P(B)P(A|B)=P(A)P(B|A),P(A_{1}A_{2}···A_{n})=P(A_{1}P(A_{2}|A_{1}))···P(A_{n}|A_{1}A_{2}···A_{n-1}) P(B∣A)=P(A)P(AB),P(AB)=P(B)P(A∣B)=P(A)P(B∣A),P(A1A2⋅⋅⋅An)=P(A1P(A2∣A1))⋅⋅⋅P(An∣A1A2⋅⋅⋅An−1)
- 事件互斥: P ( A B ) = 0 P(AB)=0 P(AB)=0
- 事件对立: P ( A ‾ ) = 1 − P ( A ) P(overline{A})=1-P(A) P(A)=1−P(A)
- 对偶原则: A ∪ B ‾ = A B ‾ 、 A ‾ B ‾ = A ∪ ‾ B overline{A cup B}=overline{AB}、overline{A} ~overline{B}=A overline{cup} B A∪B=AB、A B=A∪B
写完后,对着找就可以了。
学概率论拼的不是数学,而是语文能力
正因为概率计算简单,所以概率论考试的时候,老师只能把题目描述得非常复杂。什么“或”“同时”“有放回”“无放回”,一字之差,结果就天壤之别。
大部分人不会做概率题,不是他不会计算,而是他没看明白题目。也许打败他的不是数学,而是语文。真正搞懂题目的意思,才是概率论考试的重点。
概率老师这么做是为啥呢?是为了故意把学生卡住,不让他毕业吗?当然不是。这其实是一种思维方式的训练。
让学生在复杂的题目中,寻找“或”,寻找“与”,辨析互斥,辨析独立,计算和分辨各种复杂的排列组合,从而学会把考卷上的题目翻译成一个概率问题。
要知道,我们在实际生活中遇到的概率问题,可远比加减乘除困难,甚至比考卷上设定的题目更难。现实中我们不会计算概率,往往就是因为不会把一个现实问题,准确地翻译成“对”的概率问题。
确切的说,学概率论拼的不是数学,而是语文能力。
比如,王家先后有两个孩子,已知老大是女孩,问另一个是男孩的概率是多少?
这很简单,老大的性别已经确定了,所以老二要么是男孩,要么是女孩,概率就是1/2嘛。
但是,只要改变条件里的一个词,把 “老大是女孩” 变成 “其中一个是女孩”,就改了一个词,这时候概率就变了。两个孩子,其中一个是女孩,就有 “女孩男孩、男孩女孩、女孩女孩” 三种情况,有男孩的情况有两种,所以另一个是男孩的概率马上就变大了,从 1 2 frac{1}{2} 21 变成了 1 3 frac{1}{3} 31。是不是很神奇?
概率计算四步法
我们对于什么的概率是多少的问题,概率计算四步法可以快速找到解题思路:
- 找到样本空间:把所有可能情况都排出来(树状图画出来)
- 找到目标事件:···的概率是多少(树状图中标记这部分)
- 确定结果概率:每个可能结果的概率(算出树状图每条边的概率)
- 计算事件概率:套用公式得出结果
条件概率:一切概率都是条件概率
所谓的条件概率,通俗来讲就是,如果一个随机事件的概率会因为某个条件而产生变化,那在这个条件发生的情况下,这个随机事件发生的概率就是条件概率。
其实严格来说,所有的概率问题都是基于条件的。
当我们说 “硬币正面朝上的概率是50%” 时,其实就隐含了很多条件。比如“这个硬币是公平的”、“抛硬币的手法没问题”、“空气密度不影响硬币的结果”、“气流不会对硬币产生干扰”等。
1994年,美国洛杉矶发生了一场恶性凶杀案,两名白人被杀,橄榄球明星辛普森杀妻事件。
辛普森有多次家暴前妻的记录,从家暴到杀人,是很有可能的。
而辛普森的律师天团,操纵条件,改变概率,以证明家暴和谋杀没有必然关系。
- P ( 丈 夫 谋 杀 ∣ 丈 夫 家 暴 ) P(丈夫谋杀|丈夫家暴) P(丈夫谋杀∣丈夫家暴):美国有 400 万被家暴的妻子,但只有 1432 名被丈夫谋杀,这个概率只有 1432 除以 400 万,比 1/2500 还低。所以,家暴证明不了辛普森谋杀。
您看,律师天团其实说的是,在家暴这个条件下,一个人谋杀妻子的概率并不会大大增加,所以不能判定辛普森有罪。
但是,律师天团故意忽略了一个条件 — 辛普森的妻子已经被杀害。
一旦 “前妻已经被杀害” 这个条件出现,问题就不再是 “在家暴的条件下,丈夫谋杀妻子的概率是多少” 了,而是变成了 “在丈夫家暴妻子,而且妻子已经死于谋杀的双重条件下,杀人凶手是丈夫的概率是多少”。
- P ( 丈 夫 谋 杀 ∣ 丈 夫 家 暴 且 妻 子 死 亡 ) P(丈夫谋杀|丈夫家暴且妻子死亡) P(丈夫谋杀∣丈夫家暴且妻子死亡)
如果有 100000 个被丈夫家暴过的妇女,那么其中大概有40个妇女最终会被丈夫谋杀(1/2500×100000=40)。
而根据美国联邦调查局于 1992 年发布的女性被谋杀的数据推算,每 100000 个被家暴的妇女中有 43 个会被谋杀。所以,有 3 个妇女被丈夫以外的人谋杀,其余 40 人都是被丈夫谋杀了。
条件概率的计算如下:
- 事件A:妻子被丈夫杀害
- 事件B:妻子被家暴且妻子死亡
则在妻子被家暴且被谋杀的双重条件下,妻子是被丈夫杀害的概率:
- P ( A │ B ) = P ( A B ) P ( B ) = ( 40 100000 ) / ( 40 3 100000 ) = 0.93 P(A│B)=frac{P(AB)}{P(B)} =(frac{40}{100000})/(frac{40 3}{100000})=0.93 P(A│B)=P(B)P(AB)=(10000040)/(10000040 3)=0.93
相关性高达:93%,这个条件概率要远远高于 1 2500 frac{1}{2500} 25001。
其实一切概率都是条件概率,那么,操纵条件,改变概率。
题目增益
某工厂有职工 400 人,其中男女职工各占一半,男女职工中技术优秀的分别为 20 人与 40 人,从中任选一名职工,已知选出来的是男职工,他技术优秀的概率是多少?
答: P ( 技 术 优 秀 ∣ 男 职 工 ) = P ( 技 术 优 秀 男 职 工 ) P ( 男 职 工 ) = 20 200 = 1 10 P(技术优秀|男职工)=frac{P(技术优秀男职工)}{P(男职工)}=frac{20}{200}=frac{1}{10} P(技术优秀∣男职工)=P(男职工)P(技术优秀男职工)=20020=101
全概率公式
在较为复杂的时候,直接计算总体发生某事的概率 P ( B ) P(B) P(B) 不易,但 B B B 总是伴随着某个 A i A_{i} Ai 出现,适当的去构造这一组 A i A_{i} Ai。
题目增益
需要用到全概率公式的题目,是给出相似但没有关联的多个对象(如甲、乙),以及每个对象的具体数据(甲乙的产品分别占60%/40%,次品率是1%和2%),再把多个对象组合成一个整体(从中随机抽取一件),求总体发生某事的概率(问次品的概率)。
答: P ( 总 体 抽 一 件 是 次 品 ) = P ( 选 甲 ) ∗ P ( 选 甲 抽 一 件 是 次 品 ) P ( 选 乙 ) ∗ P ( 选 乙 抽 一 件 是 次 品 ) P(总体抽一件是次品)=P(选甲)*P(选甲抽一件是次品) P(选乙)*P(选乙抽一件是次品) P(总体抽一件是次品)=P(选甲)∗P(选甲抽一件是次品) P(选乙)∗P(选乙抽一件是次品)
全概率公式:
- 文 字 表 达 : P ( 总 体 某 事 发 生 ) = P ( 选 对 象 一 ) ∗ P ( 选 对 象 一 该 事 发 生 ) P ( 选 对 象 二 ) ∗ P ( 选 对 象 二 该 事 发 生 ) ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ 文字表达:P(总体某事发生)=P(选对象一)*P(选对象一该事发生) P(选对象二)*P(选对象二该事发生)······ 文字表达:P(总体某事发生)=P(选对象一)∗P(选对象一该事发生) P(选对象二)∗P(选对象二该事发生)⋅⋅⋅⋅⋅⋅
- 数 学 表 达 : P ( B ) = P ( A 1 ) P ( B ∣ A 1 ) P ( A 2 ) P ( B ∣ A 2 ) . . . P ( A n ) P ( B ∣ A n ) 数学表达:P(B)=P(A_{1}) P(B|A_{1}) P(A_{2}) P(B|A_{2}) … P(A_{n})P(B|A_{n}) 数学表达:P(B)=P(A1)P(B∣A1) P(A2)P(B∣A2) ... P(An)P(B∣An)
贝叶斯公式
条件概率: P ( B ∣ A ) = P ( A B ) P ( A ) P( B| A)=frac{P(AB)}{P(A)} P(B∣A)=P(A)P(AB)
- P ( B ∣ A ) P(B|A) P(B∣A):条件概率,表示在 A 条件下 B 发生的概率
- P ( A B ) P(AB) P(AB):条件 A、事件 B 同时发生的概率
- P ( A ) P(A) P(A):条件 A 发生的概率
在文本中的两个词 A 和 B,前面的词就是后面的词的条件,比如 A 是中药,B 是人参,反过来也成立,A 是人参,B 是中药。
于是,就有一个想法:
- P ( B ∣ A ) = P ( A B ) P ( A ) P( B| A)=frac{P(AB)}{P(A)} P(B∣A)=P(A)P(AB)
- P ( A ∣ B ) = P ( A B ) P ( B ) P( A| B)=frac{P(AB)}{P(B)} P(A∣B)=P(B)P(AB)
我们把俩个式子都变形:
- P ( A B ) = P ( B ∣ A ) ∗ P ( A ) P(AB) = P(B|A)*P(A) P(AB)=P(B∣A)∗P(A)
- P ( A B ) = P ( A ∣ B ) ∗ P ( B ) P(AB) = P(A|B)*P(B) P(AB)=P(A∣B)∗P(B)
对比这个式子和前面的式子,我们发现它们都等于 P ( A , B ) P(A,B) P(A,B),因此两个等式的左边也必然相等。
于是,我们就可以得到一个重要的公式:
- P ( B ∣ A ) ∗ P ( A ) = P ( A ∣ B ) ∗ P ( B ) P(B|A)*P(A)=P(A|B)*P(B) P(B∣A)∗P(A)=P(A∣B)∗P(B)
在这个公式中,如果我们知道了其中三个因子,就能求出第四个。
通常来讲,两个条件概率 P ( A ) P(A) P(A) 和 P ( B ) P(B) P(B) 是容易求的。
另外两个条件概率,一个是 A 条件下 B 的概率,一个是 B 条件下 A 的概率,常常一个比较容易得到,另一个比较难得到。
另外两个条件概率,一个是 A 条件下 B 的概率,一个是 B 条件下 A 的概率,常常一个比较容易得到,另一个比较难得到。
所以,我们常常从容易得到的条件概率,推导出难得到的概率,这就是著名的贝叶斯公式:
- 贝叶斯公式: P ( A ∣ B ) = P ( B ∣ A ) ∗ P ( A ) P ( B ) P(A|B)=P(B|A)*frac{P(A)}{P(B)} P(A∣B)=P(B∣A)∗P(B)P(A)
在这个公式中,我们假定 B 条件下 A 的条件概率比较难得到,我们放在了等式的左边,而 A 条件下 B 的条件概率容易得到,我们放在了等式的右边。
通过这种互换,可以把一个复杂的问题变成三个简单的问题。
这就是贝叶斯公式的本质。利用它,就解决了机器翻译的难题。
假定有一个英语句子 B,想要翻译成中文句子 A,那怎么翻译呢?
很多人将它想象成语言学问题,其实这是一个数学问题,或者更准确地说,是一个概率的问题。
假定英语句子 B 有很多种翻译方法 A1,A2,A3……AN,我们只要挑一种翻译 A,使得在已知英语句子 B 的条件下,A 的概率 P ( A ∣ B ) P(A|B) P(A∣B) 超过其它所有可能的句子的条件概率即可。
比如说,这句话有 10 种翻译方法,它们的条件概率分别是 0.1,0.5,0.01,0.02……你会发现第二种翻译方法 A2 的条件概率是 0.5,是最大的,因此就认为 B 应该被翻译成 A2,或者说 A = A2。
P ( A ∣ B ) P(A|B) P(A∣B) 这个概率该怎么计算呢?
这个条件概率的计算,就要用到贝叶斯公式了。我们将它展开成:
- P ( A ∣ B ) = P ( B ∣ A ) ∗ P ( A ) P ( B ) P(A|B)=P(B|A)*frac{P(A)}{P(B)} P(A∣B)=P(B∣A)∗P(B)P(A)
P ( B ∣ A ) P(B|A) P(B∣A) 是给定中文的句子,对应的英文句子的概率,它可以通过一个马尔可夫模型计算出来。
P ( A ) P(A) P(A) 是所谓的语言模型,它计算的是哪个句子在语法上更合理,这个也可以通过一个马尔可夫模型计算。
P ( B ) P(B) P(B) 是一个常数,因为要翻译句子 B,它是个确定的事情,我们把它的概率想象成 1 就可以了(其实不是1)。
于是原来的一个无法直接计算的条件概率,经过贝叶斯公式,变成了三个可以计算的概率。
这样,就能够判断给定一个句子,任何翻译出来的中文句子的可能性,而后我们找出最大的那个即可。
因为条件概率在数学上条件和结果可以互换,通过这种互换,把一个复杂的问题变成三个简单的问题,这就是贝叶斯公式的本质,利用它,就解决了机器翻译的难题。
复盘一下,推导思路:从核心公式开始,
- P ( A , B ) = P ( B ∣ A ) ∗ P ( A ) P (A,B)=P (B|A)*P (A) P(A,B)=P(B∣A)∗P(A)
- P ( A , B ) = P ( A ∣ B ) ∗ P ( B ) P (A,B)=P (A|B)*P (B) P(A,B)=P(A∣B)∗P(B)
于是有:
- P ( B ∣ A ) ∗ P ( A ) = P ( A ∣ B ) ∗ P ( B ) P (B|A)*P (A)=P (A|B)*P (B) P(B∣A)∗P(A)=P(A∣B)∗P(B)
如何更容易地理解呢?答案是:「分步」,一步一步看。
- P ( A ) P (A) P(A):事件 A 发生的概率;
- P ( B ) P (B) P(B):事件 B 发生的概率;
- P ( A , B ) P (A,B) P(A,B):事件 A,B 同时发生的概率;
以上,都很容易理解。现在想一想:要让事件 A,B 同时发生我们可以如何实现?
我们可以「分步」完成这件事。而且,「分步」有两种不同方法,如下:
- ① 我们可以先让 A 发生,再在 A 发生的基础上让 B 发生;
- ② 我们可以先让 B 发生,再在 B 发生的基础上让 A 发生。
以上①、②两种「分步」途径都可以实现让事件 A,B 同时发生。
分步完成一件事总的概率等于每一步完成概率的乘积。
于是,上面两种途径就可以写成公式语言:
- ① A,B 同时发生 = A 发生 * A 已发生条件下 B 再发生;
- ② A,B 同时发生 = B 发生 * B 已发生条件下 A 再发生;
所以, P ( A , B ) = P ( A ) ∗ P ( B ∣ A ) = P ( B ) ∗ P ( A ∣ B ) P (A,B)=P (A)*P (B|A)=P (B)*P (A|B) P(A,B)=P(A)∗P(B∣A)=P(B)∗P(A∣B)
理解条件概率,可以从 “分步完成” 的角度思考,这样即使再推广到更多的事件,你也能够很快写出正确的公式。
比如,A,B,C 三个事件同时发生,我们依旧可以「分步」完成,一种分步方式是:
- 先让 A 发生,再在 A 发生的条件下让 B 发生,再在 A,B 都发生的条件下让 C 发生
由此可以轻松写出公式 P ( A , B , C ) = P ( A ) ∗ P ( B ∣ A ) ∗ P ( C ∣ A B ) P (A,B,C)=P (A)*P (B|A)*P (C|AB) P(A,B,C)=P(A)∗P(B∣A)∗P(C∣AB),思路你学会了吗?
题目增益
需要用到贝叶斯公式的题目,是给出相似但没有关联的多个对象(如甲、乙),以及每个对象的具体数据(如甲乙的产品分别占60%/40%,次品率是1%和2%),再把多个对象组合成一个整体(如从中随机抽取一件),在已知总体里某事发生的情况下(如发现是次品),求抽的东西源自某个对象的概率(如则该次品是甲生产的概率是)。
贝叶斯公式:
- 文 字 表 达 : P ( 抽 的 东 西 源 自 某 对 象 ∣ 总 体 某 事 发 生 ) = P ( 选 该 对 象 ) ∗ P ( 该 对 象 里 该 事 发 生 ) P ( 总 体 里 该 事 发 生 ) 文字表达:P(抽的东西源自某对象|总体某事发生)=frac{P(选该对象)*P(该对象里该事发生)}{P(总体里该事发生)} 文字表达:P(抽的东西源自某对象∣总体某事发生)=P(总体里该事发生)P(选该对象)∗P(该对象里该事发生)
- 数 学 表 达 : P ( A ∣ B ) = P ( B ∣ A ) ∗ P ( A ) P ( B ) 数学表达:P(A|B)=frac{P(B|A)*P(A)}{P(B)} 数学表达:P(A∣B)=P(B)P(B∣A)∗P(A)
随机变量
通俗地讲,随机变量就是一个随机的数,它是对任何的“随机的东西”做的量化。
把随机事件可能的结果抽象成一个数字,每个数字对应一个概率。这个随机变化的数字,就是随机变量。
随机的对象可以是任何东西–明天的天气可以是晴、阴、雨,扔硬币的结果可以是正面或者反面,这里本身都没有数字。
但是我们要借助概率论来研究它们,而概率论是数学的一部分,要用到数学语言,那么总是写 “明天是晴天的概率” 就很不方便,于是我们可以把晴、阴、雨贴上标签,叫做0、1、2,而后把明天的天气状况用一个字母X来表示,于是“明天下雨”就变成了“X=2”。
这样,这个原本没有数字的随机结果就变成了一个可能的取值为0、1、2的随机数,这就是随机变量。
期望和方差这两个描述随机事件的重要指标。
期望:对长期价值的数字化衡量
期望计算:先把每个结果各自发生的概率和带来的影响相乘,再把算出来的数相加。
数学期望本质上就是对事件长期价值的数字化衡量,或者说,每当要判断一件事的长期价值,数学期望就是一个指标。
注意,是长期价值。数学期望是把概率代表的长期价值变成了一个具体的数字,方便我们比较。
数学期望 = 成功的收益 × 成功的概率 – 失败的损失 × 失败的概率
如,一只股票现在 50 块,有40%的概率涨到 60 块,有30%的概率保持不变,还有30%的概率跌到 35 块。
- E ( X ) = ( 60 − 50 ) ∗ 40 % − ( 50 − 50 ) ∗ 30 % − ( 50 − 35 ) ∗ 30 % = − 0.5 E(X) =(60-50) * 40% – (50-50)*30%-(50-35)*30% =-0.5 E(X)=(60−50)∗40%−(50−50)∗30%−(50−35)∗30%=−0.5
也就是说,虽然上涨的可能性比下跌的可能性更大,但整体上看,这只股票趋向于亏钱,不值得买。
在NBA这个世界最顶级的篮球联赛中,不少球队是照魔球理论建队的。比如说,火箭队的莫雷,在库里,已经开始了魔球计划。
魔球理论:打篮球