Deep Learning Chapter01：机器学习中概率论

好久不见，大家好，我是北山啦。机器学习当中需要用到许多的数学知识，如今博主又要继续踏上深度学习的路程，所以现在在网上总结了相关的考研数学和机器学习中常见相关知识如下，希望对大家有所帮助。

概率论和数理统计

随机事件和概率

1.事件的关系与运算

(1) 子事件：

A subset B

，若

发生，则

发生。

(2) 相等事件：

A = B

，即

A subset B

，且

B subset A

。

(3) 和事件：

Abigcup B

（或

A B

），

与

中至少有一个发生。

(4) 差事件：

A - B

，

发生但

不发生。

(5) 积事件：

Abigcap B

（或

{AB}

），

与

同时发生。

(6) 互斥事件（互不相容）：

Abigcap B

varnothing

。

(7) 互逆事件（对立事件）： A ⋂ B = ∅ , A ⋃ B = Ω , A = B ˉ , B = A ˉ Abigcap B=varnothing ,Abigcup B=Omega ,A=bar{B},B=bar{A} A⋂B=∅,A⋃B=Ω,A=Bˉ,B=Aˉ 2.运算律 (1) 交换律： A ⋃ B = B ⋃ A , A ⋂ B = B ⋂ A Abigcup B=Bbigcup A,Abigcap B=Bbigcap A A⋃B=B⋃A,A⋂B=B⋂A (2) 结合律： ( A ⋃ B ) ⋃ C = A ⋃ ( B ⋃ C ) (Abigcup B)bigcup C=Abigcup (Bbigcup C) (A⋃B)⋃C=A⋃(B⋃C) (3) 分配律： ( A ⋂ B ) ⋂ C = A ⋂ ( B ⋂ C ) (Abigcap B)bigcap C=Abigcap (Bbigcap C) (A⋂B)⋂C=A⋂(B⋂C) 3.德centerdot 摩根律

overline{Abigcup B}=bar{A}bigcap bar{B}

overline{Abigcap B}=bar{A}bigcup bar{B}

4.完全事件组

A 1 A 2 ⋯ A n {{A}_{1}}{{A}_{2}}cdots {{A}_{n}} A1A2⋯An两两互斥，且和事件为必然事件，即{{A}{i}}bigcap {{A}{j}}=varnothing, ine j ,underset{i=1}{overset{n}{mathop bigcup }},=Omega

5.概率的基本公式 (1)条件概率: P ( B ∣ A ) = P ( A B ) P ( A ) P(B|A)=frac{P(AB)}{P(A)} P(B∣A)=P(A)P(AB),表示 A A A发生的条件下， B B B发生的概率。 (2)全概率公式： P(A)=sumlimits_{i=1}^{n}{P(A|{{B}{i}})P({{B}{i}}),{{B}{i}}{{B}{j}}}=varnothing ,ine j,underset{i=1}{overset{n}{mathop{bigcup }}},{{B}_{i}}=Omega (3) Bayes公式：

P({{B}_{j}}|A)=frac{P(A|{{B}_{j}})P({{B}_{j}})}{sumlimits_{i=1}^{n}{P(A|{{B}_{i}})P({{B}_{i}})}},j=1,2,cdots ,n

注：上述公式中事件

{{B}_{i}}

的个数可为可列个。 (4)乘法公式：

P({{A}_{1}}{{A}_{2}})=P({{A}_{1}})P({{A}_{2}}|{{A}_{1}})=P({{A}_{2}})P({{A}_{1}}|{{A}_{2}})

P({{A}_{1}}{{A}_{2}}cdots {{A}_{n}})=P({{A}_{1}})P({{A}_{2}}|{{A}_{1}})P({{A}_{3}}|{{A}_{1}}{{A}_{2}})cdots P({{A}_{n}}|{{A}_{1}}{{A}_{2}}cdots {{A}_{n-1}})

6.事件的独立性 (1)

与

相互独立

Leftrightarrow P(AB)=P(A)P(B)

(2)

，

两两独立

Leftrightarrow P(AB)=P(A)P(B)

;

P(BC)=P(B)P(C)

;

P(AC)=P(A)P(C)

; (3)

，

相互独立

Leftrightarrow P(AB)=P(A)P(B)

;

P(BC)=P(B)P(C)

;

P(AC)=P(A)P(C)

;

P(ABC)=P(A)P(B)P(C)

7.独立重复试验

将某试验独立重复 n n n次，若每次实验中事件A发生的概率为 p p p，则 n n n次试验中 A A A发生 k k k次的概率为： P ( X = k ) = C n k p k ( 1 − p ) n − k P(X=k)=C_{n}^{k}{{p}^{k}}{{(1-p)}^{n-k}} P(X=k)=Cnkpk(1−p)n−k 8.重要公式与结论 ( 1 ) P ( A ˉ ) = 1 − P ( A ) (1)P(bar{A})=1-P(A) (1)P(Aˉ)=1−P(A) ( 2 ) P ( A ⋃ B ) = P ( A ) P ( B ) − P ( A B ) (2)P(Abigcup B)=P(A) P(B)-P(AB) (2)P(A⋃B)=P(A) P(B)−P(AB) P ( A ⋃ B ⋃ C ) = P ( A ) P ( B ) P ( C ) − P ( A B ) − P ( B C ) − P ( A C ) P ( A B C ) P(Abigcup Bbigcup C)=P(A) P(B) P(C)-P(AB)-P(BC)-P(AC) P(ABC) P(A⋃B⋃C)=P(A) P(B) P(C)−P(AB)−P(BC)−P(AC) P(ABC) ( 3 ) P ( A − B ) = P ( A ) − P ( A B ) (3)P(A-B)=P(A)-P(AB) (3)P(A−B)=P(A)−P(AB) ( 4 ) P ( A B ˉ ) = P ( A ) − P ( A B ) , P ( A ) = P ( A B ) P ( A B ˉ ) , (4)P(Abar{B})=P(A)-P(AB),P(A)=P(AB) P(Abar{B}), (4)P(ABˉ)=P(A)−P(AB),P(A)=P(AB) P(ABˉ), P ( A ⋃ B ) = P ( A ) P ( A ˉ B ) = P ( A B ) P ( A B ˉ ) P ( A ˉ B ) P(Abigcup B)=P(A) P(bar{A}B)=P(AB) P(Abar{B}) P(bar{A}B) P(A⋃B)=P(A) P(AˉB)=P(AB) P(ABˉ) P(AˉB) (5)条件概率 P ( ⋅ ∣ B ) P(centerdot |B) P(⋅∣B)满足概率的所有性质，例如：. P ( A ˉ 1 ∣ B ) = 1 − P ( A 1 ∣ B ) P({{bar{A}}_{1}}|B)=1-P({{A}_{1}}|B) P(Aˉ1∣B)=1−P(A1∣B) P ( A 1 ⋃ A 2 ∣ B ) = P ( A 1 ∣ B ) P ( A 2 ∣ B ) − P ( A 1 A 2 ∣ B ) P({{A}_{1}}bigcup {{A}_{2}}|B)=P({{A}_{1}}|B) P({{A}_{2}}|B)-P({{A}_{1}}{{A}_{2}}|B) P(A1⋃A2∣B)=P(A1∣B) P(A2∣B)−P(A1A2∣B) P ( A 1 A 2 ∣ B ) = P ( A 1 ∣ B ) P ( A 2 ∣ A 1 B ) P({{A}_{1}}{{A}_{2}}|B)=P({{A}_{1}}|B)P({{A}_{2}}|{{A}_{1}}B) P(A1A2∣B)=P(A1∣B)P(A2∣A1B) (6)若 A 1 , A 2 , ⋯ , A n {{A}_{1}},{{A}_{2}},cdots ,{{A}_{n}} A1,A2,⋯,An相互独立，则 P ( ⋂ i = 1 n A i ) = ∏ i = 1 n P ( A i ) , P(bigcaplimits_{i=1}^{n}{{{A}_{i}}})=prodlimits_{i=1}^{n}{P({{A}_{i}})}, P(i=1⋂nAi)=i=1∏nP(Ai), P ( ⋃ i = 1 n A i ) = ∏ i = 1 n ( 1 − P ( A i ) ) P(bigcuplimits_{i=1}^{n}{{{A}_{i}}})=prodlimits_{i=1}^{n}{(1-P({{A}_{i}}))} P(i=1⋃nAi)=i=1∏n(1−P(Ai)) (7)互斥、互逆与独立性之间的关系： A A A与 B B B互逆 ⇒ Rightarrow ⇒ A A A与 B B B互斥，但反之不成立， A A A与 B B B互斥（或互逆）且均非零概率事件Rightarrow A A A与 B B B不独立. (8)若 A 1 , A 2 , ⋯ , A m , B 1 , B 2 , ⋯ , B n {{A}_{1}},{{A}_{2}},cdots ,{{A}_{m}},{{B}_{1}},{{B}_{2}},cdots ,{{B}_{n}} A1,A2,⋯,Am,B1,B2,⋯,Bn相互独立，则 f ( A 1 , A 2 , ⋯ , A m ) f({{A}_{1}},{{A}_{2}},cdots ,{{A}_{m}}) f(A1,A2,⋯,Am)与 g ( B 1 , B 2 , ⋯ , B n ) g({{B}_{1}},{{B}_{2}},cdots ,{{B}_{n}}) g(B1,B2,⋯,Bn)也相互独立，其中 f ( ⋅ ) , g ( ⋅ ) f(centerdot ),g(centerdot ) f(⋅),g(⋅)分别表示对相应事件做任意事件运算后所得的事件，另外，概率为1（或0）的事件与任何事件相互独立.

随机变量及其概率分布

1.随机变量及概率分布

取值带有随机性的变量，严格地说是定义在样本空间上，取值于实数的函数称为随机变量，概率分布通常指分布函数或分布律

2.分布函数的概念与性质

定义：

F(x) = P(X leq x), - infty < x < infty

性质：(1)

0 leq F(x) leq 1

(2)

F(x)

单调不减

(3) 右连续

F(x 0) = F(x)

(4)

F( - infty) = 0,F( infty) = 1

3.离散型随机变量的概率分布

P(X = x_{i}) = p_{i},i = 1,2,cdots,n,cdotsquadquad p_{i} geq 0,sum_{i =1}^{infty}p_{i} = 1

4.连续型随机变量的概率密度

概率密度

f(x)

;非负可积，且:

(1)

f(x) geq 0,

(2)

int_{- infty}^{ infty}{f(x){dx} = 1}

(3)

为

f(x)

的连续点，则:

f(x) = F'(x)

分布函数

F(x) = int_{- infty}^{x}{f(t){dt}}

5.常见分布

(1) 0-1分布:

P(X = k) = p^{k}{(1 - p)}^{1 - k},k = 0,1

(2) 二项分布:

B(n,p)

：

P(X = k) = C_{n}^{k}p^{k}{(1 - p)}^{n - k},k =0,1,cdots,n

(3) Poisson分布:

p(lambda)

：

P(X = k) = frac{lambda^{k}}{k!}e^{-lambda},lambda > 0,k = 0,1,2cdots

(4) 均匀分布 U ( a , b ) U(a,b) U(a,b)：f(x) = { begin{matrix} & frac{1}{b - a},a < x< b & 0, end{matrix}

(5) 正态分布:

N(mu,sigma^{2}):

varphi(x) =frac{1}{sqrt{2pi}sigma}e^{- frac{{(x - mu)}^{2}}{2sigma^{2}}},sigma > 0,infty < x < infty

(6)指数分布:E(lambda):f(x) ={ begin{matrix} & lambda e^{-{λx}},x > 0,lambda > 0 & 0, end{matrix}

(7)几何分布:

G(p):P(X = k) = {(1 - p)}^{k - 1}p,0 < p < 1,k = 1,2,cdots.

(8)超几何分布:

H(N,M,n):P(X = k) = frac{C_{M}^{k}C_{N - M}^{n -k}}{C_{N}^{n}},k =0,1,cdots,min(n,M)

6.随机变量函数的概率分布

(1)离散型：

P(X = x_{1}) = p_{i},Y = g(X)

则:

P(Y = y_{j}) = sum_{g(x_{i}) = y_{i}}^{}{P(X = x_{i})}

(2)连续型：

Xtilde{ }f_{X}(x),Y = g(x)

则:

F_{y}(y) = P(Y leq y) = P(g(X) leq y) = int_{g(x) leq y}^{}{f_{x}(x)dx}

，

f_{Y}(y) = F'_{Y}(y)

7.重要公式与结论

(1)

Xsim N(0,1) Rightarrow varphi(0) = frac{1}{sqrt{2pi}},Phi(0) =frac{1}{2},

Phi( - a) = P(X leq - a) = 1 - Phi(a)

(2)

Xsim Nleft( mu,sigma^{2} right) Rightarrow frac{X -mu}{sigma}sim Nleft( 0,1 right),P(X leq a) = Phi(frac{a -mu}{sigma})

(3)

Xsim E(lambda) Rightarrow P(X > s t|X > s) = P(X > t)

(4)

Xsim G(p) Rightarrow P(X = m k|X > m) = P(X = k)

(5) 离散型随机变量的分布函数为阶梯间断函数；连续型随机变量的分布函数为连续函数，但不一定为处处可导函数。

(6) 存在既非离散也非连续型随机变量。

多维随机变量及其分布

1.二维随机变量及其联合分布

由两个随机变量构成的随机向量

(X,Y)

，联合分布为

F(x,y) = P(X leq x,Y leq y)

2.二维离散型随机变量的分布

(1) 联合概率分布律

P{ X = x_{i},Y = y_{j}} = p_{{ij}};i,j =1,2,cdots

(2) 边缘分布律

p_{i cdot} = sum_{j = 1}^{infty}p_{{ij}},i =1,2,cdots

p_{cdot j} = sum_{i}^{infty}p_{{ij}},j = 1,2,cdots

(3) 条件分布律

P{ X = x_{i}|Y = y_{j}} = frac{p_{{ij}}}{p_{cdot j}}

P{ Y = y_{j}|X = x_{i}} = frac{p_{{ij}}}{p_{i cdot}}

3. 二维连续性随机变量的密度

(1) 联合概率密度

f(x,y):

f(x,y) geq 0

int_{- infty}^{ infty}{int_{- infty}^{ infty}{f(x,y)dxdy}} = 1

(2) 分布函数：

F(x,y) = int_{- infty}^{x}{int_{- infty}^{y}{f(u,v)dudv}}

(3) 边缘概率密度：

f_{X}left( x right) = int_{- infty}^{ infty}{fleft( x,y right){dy}}

f_{Y}(y) = int_{- infty}^{ infty}{f(x,y)dx}

(4) 条件概率密度：

f_{X|Y}left( x middle| y right) = frac{fleft( x,y right)}{f_{Y}left( y right)}

f_{Y|X}(y|x) = frac{f(x,y)}{f_{X}(x)}

4.常见二维随机变量的联合分布

(1) 二维均匀分布：

(x,y) sim U(D)

f(x,y) = begin{cases} frac{1}{S(D)},(x,y) in D \ 0,其他 end{cases}

(2) 二维正态分布：

(X,Y)sim N(mu_{1},mu_{2},sigma_{1}^{2},sigma_{2}^{2},rho)

f(x,y) = frac{1}{2pisigma_{1}sigma_{2}sqrt{1 - rho^{2}}}.expleft{ frac{- 1}{2(1 - rho^{2})}lbrackfrac{{(x - mu_{1})}^{2}}{sigma_{1}^{2}} - 2rhofrac{(x - mu_{1})(y - mu_{2})}{sigma_{1}sigma_{2}} frac{{(y - mu_{2})}^{2}}{sigma_{2}^{2}}rbrack right}

5.随机变量的独立性和相关性

和

的相互独立:

Leftrightarrow Fleft( x,y right) = F_{X}left( x right)F_{Y}left( y right)

Leftrightarrow p_{{ij}} = p_{i cdot} cdot p_{cdot j}

（离散型）

Leftrightarrow fleft( x,y right) = f_{X}left( x right)f_{Y}left( y right)

（连续型）

和

的相关性：

随机变量的数字特征

1.数学期望

离散型：

Pleft{ X = x_{i} right} = p_{i},E(X) = sum_{i}^{}{x_{i}p_{i}}

；

连续型：

Xsim f(x),E(X) = int_{- infty}^{ infty}{xf(x)dx}

性质：

(1)

E(C) = C,Elbrack E(X)rbrack = E(X)

(2)

E(C_{1}X C_{2}Y) = C_{1}E(X) C_{2}E(Y)

(3) 若

和

独立，则

E(XY) = E(X)E(Y)

(4)

leftlbrack E(XY) rightrbrack^{2} leq E(X^{2})E(Y^{2})

2.方差：

D(X) = Eleftlbrack X - E(X) rightrbrack^{2} = E(X^{2}) - leftlbrack E(X) rightrbrack^{2}

3.标准差：

sqrt{D(X)}

，

4.离散型：

D(X) = sum_{i}^{}{leftlbrack x_{i} - E(X) rightrbrack^{2}p_{i}}

5.连续型：

D(X) = {int_{- infty}^{ infty}leftlbrack x - E(X) rightrbrack}^{2}f(x)dx

性质：

(1)

D(C) = 0,Dlbrack E(X)rbrack = 0,Dlbrack D(X)rbrack = 0

(2)

与

相互独立，则

D(X pm Y) = D(X) D(Y)

(3)

Dleft( C_{1}X C_{2} right) = C_{1}^{2}Dleft( X right)

(4) 一般有

D(X pm Y) = D(X) D(Y) pm 2Cov(X,Y) = D(X) D(Y) pm 2rhosqrt{D(X)}sqrt{D(Y)}

(5)

Dleft( X right) < Eleft( X - C right)^{2},C neq Eleft( X right)

(6)

D(X) = 0 Leftrightarrow Pleft{ X = C right} = 1

6.随机变量函数的数学期望

(1) 对于函数

Y = g(x)

为离散型：

P{ X = x_{i}} = p_{i},E(Y) = sum_{i}^{}{g(x_{i})p_{i}}

；

为连续型：

Xsim f(x),E(Y) = int_{- infty}^{ infty}{g(x)f(x)dx}

(2)

Z = g(X,Y)

;

left( X,Y right)sim P{ X = x_{i},Y = y_{j}} = p_{{ij}}

;

E(Z) = sum_{i}^{}{sum_{j}^{}{g(x_{i},y_{j})p_{{ij}}}}

left( X,Y right)sim f(x,y)

;

E(Z) = int_{- infty}^{ infty}{int_{- infty}^{ infty}{g(x,y)f(x,y)dxdy}}

7.协方差

Cov(X,Y) = Eleftlbrack (X - E(X)(Y - E(Y)) rightrbrack

8.相关系数

rho_{{XY}} = frac{Cov(X,Y)}{sqrt{D(X)}sqrt{D(Y)}}

阶原点矩

E(X^{k})

;

阶中心矩

Eleft{ {lbrack X - E(X)rbrack}^{k} right}

性质：

(1)

Cov(X,Y) = Cov(Y,X)

(2)

Cov(aX,bY) = abCov(Y,X)

(3)

Cov(X_{1} X_{2},Y) = Cov(X_{1},Y) Cov(X_{2},Y)

(4)

left| rholeft( X,Y right) right| leq 1

(5)

rholeft( X,Y right) = 1 Leftrightarrow Pleft( Y = aX b right) = 1

，其中

a > 0

rholeft( X,Y right) = - 1 Leftrightarrow Pleft( Y = aX b right) = 1

，其中

a < 0

9.重要公式与结论

(1)

D(X) = E(X^{2}) - E^{2}(X)

(2)

Cov(X,Y) = E(XY) - E(X)E(Y)

(3)

left| rholeft( X,Y right) right| leq 1,

且

rholeft( X,Y right) = 1 Leftrightarrow Pleft( Y = aX b right) = 1

，其中

a > 0

rholeft( X,Y right) = - 1 Leftrightarrow Pleft( Y = aX b right) = 1

，其中

a < 0

(4) 下面5个条件互为充要条件：

rho(X,Y) = 0

Leftrightarrow Cov(X,Y) = 0

Leftrightarrow E(X,Y) = E(X)E(Y)

Leftrightarrow D(X Y) = D(X) D(Y)

Leftrightarrow D(X - Y) = D(X) D(Y)

注：

与

独立为上述5个条件中任何一个成立的充分条件，但非必要条件。

数理统计的基本概念

1.基本概念

总体：研究对象的全体，它是一个随机变量，用

表示。

个体：组成总体的每个基本元素。

简单随机样本：来自总体

的

个相互独立且与总体同分布的随机变量

X_{1},X_{2}cdots,X_{n}

，称为容量为

的简单随机样本，简称样本。

统计量：设

X_{1},X_{2}cdots,X_{n},

是来自总体

的一个样本，

g(X_{1},X_{2}cdots,X_{n})

）是样本的连续函数，且

g()

中不含任何未知参数，则称

g(X_{1},X_{2}cdots,X_{n})

为统计量。

样本均值：

overline{X} = frac{1}{n}sum_{i = 1}^{n}X_{i}

样本方差：

S^{2} = frac{1}{n - 1}sum_{i = 1}^{n}{(X_{i} - overline{X})}^{2}

样本矩：样本

阶原点矩：

A_{k} = frac{1}{n}sum_{i = 1}^{n}X_{i}^{k},k = 1,2,cdots

样本

阶中心矩：

B_{k} = frac{1}{n}sum_{i = 1}^{n}{(X_{i} - overline{X})}^{k},k = 1,2,cdots

2.分布

chi^{2}

分布：

chi^{2} = X_{1}^{2} X_{2}^{2} cdots X_{n}^{2}simchi^{2}(n)

，其中

X_{1},X_{2}cdots,X_{n},

相互独立，且同服从

N(0,1)

分布：

T = frac{X}{sqrt{Y/n}}sim t(n)

，其中

Xsim Nleft( 0,1 right),Ysimchi^{2}(n),

且

，

相互独立。

分布：

F = frac{X/n_{1}}{Y/n_{2}}sim F(n_{1},n_{2})

，其中

Xsimchi^{2}left( n_{1} right),Ysimchi^{2}(n_{2}),

且

，

相互独立。

分位数：若

P(X leq x_{alpha}) = alpha,

则称

x_{alpha}

为

的

alpha

分位数

3.正态总体的常用样本分布

(1) 设

X_{1},X_{2}cdots,X_{n}

为来自正态总体

N(mu,sigma^{2})

的样本，

overline{X} = frac{1}{n}sum_{i = 1}^{n}X_{i},S^{2} = frac{1}{n - 1}sum_{i = 1}^{n}{{(X_{i} - overline{X})}^{2},}

则：

overline{X}sim Nleft( mu,frac{sigma^{2}}{n} right){ }

或者

frac{overline{X} - mu}{frac{sigma}{sqrt{n}}}sim N(0,1)

frac{(n - 1)S^{2}}{sigma^{2}} = frac{1}{sigma^{2}}sum_{i = 1}^{n}{{(X_{i} - overline{X})}^{2}simchi^{2}(n - 1)}

frac{1}{sigma^{2}}sum_{i = 1}^{n}{{(X_{i} - mu)}^{2}simchi^{2}(n)}

{ }frac{overline{X} - mu}{S/sqrt{n}}sim t(n - 1)

4.重要公式与结论

(1) 对于

chi^{2}simchi^{2}(n)

，有

E(chi^{2}(n)) = n,D(chi^{2}(n)) = 2n;

(2) 对于

Tsim t(n)

，有

E(T) = 0,D(T) = frac{n}{n - 2}(n > 2)

；

(3) 对于

Ftilde{ }F(m,n)

，有

frac{1}{F}sim F(n,m),F_{a/2}(m,n) = frac{1}{F_{1 - a/2}(n,m)};

(4) 对于任意总体

，有

E(overline{X}) = E(X),E(S^{2}) = D(X),D(overline{X}) = frac{D(X)}{n}

lambda matrix

0 人点赞