信息论 - 基础概念

信息论是运用概率论与数理统计的方法研究信息、信息熵、通信系统、数据传输、密码学、数据压缩等问题的应用数学学科。本文介绍基本概念。

信息是用来消除事情的不确定性的，不确定性的减少量等于**信息的信息量。*
信息论背后的原理是：从不太可能发生的事件中能学到更多的有用信息。
- 发生可能性较大的事件包含较少的信息。
- 发生可能性较小的事件包含较多的信息。
- 独立事件包含额外的信息。

I(x)=-log P(x)

记作 H§
熵刻画了按照真实分布 P 来识别一个样本所需要的编码长度的期望（即平均编码长度）。如：含有4个字母 (A, B, C, D) 的样本集中，真实分布 P=left(frac{1}{2}, frac{1}{2}, 0,0right) , 则只需要1位编码即可识别样本。
证明已知：

P(X=i)=p_i

H(X)=sum_{i=1}^{k} P_{i} log P_{i}

sum_{i=1}^{k} P_{i}=1

建立拉格朗日方程：

L=sum_{i=1}^{k} P_{i} log P_{i} lambda sum_{i=1}^{k} P_{i}

解方程组：有：

frac{partial L}{partial P_{i}}=log P_{i} 1 lambda=0

log P_{i}=-1-lambda

P_{i}=2^{-1-lambda}

由于之间两两相等，且和为1 因此有：

P_i=frac{1}{k}

即当所有可能性的概率相等时熵最大此时熵：

H(X) = sumnolimits_{i = 1}^{i = k} {frac{1}{k}log frac{1}{k} = log frac{1}{k}}

对于随机变量 Y 和 X , 条件嫡 H(Y mid X) 表示：已知随机变量 X 的条件下，随机变量 Y 的不确定性。它定义为： X 给定条件下 Y 的条件概率分布的嫡对 X 的期望：

H(Y mid X)=sum_{x} p(x) H(Y mid X=x)=-sum_{x} sum_{y} p(x, y) log p(y mid x)

H(Y mid X)=int p(x) H(Y mid X=x) d x=-iint p(x, y) log p(y mid x) d x d y

根据定义可以证明： H(X, Y)=H(Y mid X) H(X) 。即：描述 X 和 Y 所需要的信息是：描述 X 所需要的信息加上给定 X 条件下描述 Y 所需的额外信息。

0 人点赞