信息论 - 基础概念

2022-08-05 15:08:09 浏览数 (1)

信息论是运用概率论与数理统计的方法研究信息、信息熵、通信系统、数据传输、密码学、数据压缩等问题的应用数学学科。本文介绍基本概念。

信息

  • 信息是用来消除事情的不确定性的,不确定性的减少量等于**信息的信息量。*
  • 信息论背后的原理是:从不太可能发生的事件中能学到更多的有用信息。
    • 发生可能性较大的事件包含较少的信息。
    • 发生可能性较小的事件包含较多的信息。
    • 独立事件包含额外的信息 。

  • 对于事件 X=x , 定义自信息 (self-information) 为:
I(x)=-log P(x)
  • 自信息仅仅处理单个输出,但是如果计算自信息的期望,它就是嫡:

  • 记作
  • 熵刻画了按照真实分布 P 来识别一个样本所需要的编码长度的期望(即平均编码长度)。 如:含有4个字母 (A, B, C, D) 的样本集中,真实分布 P=left(frac{1}{2}, frac{1}{2}, 0,0right) , 则只需要1位编码即可识别样本。
  • 证明 已知:
P(X=i)=p_i
H(X)=sum_{i=1}^{k} P_{i} log P_{i}
sum_{i=1}^{k} P_{i}=1

建立拉格朗日方程:

L=sum_{i=1}^{k} P_{i} log P_{i} lambda sum_{i=1}^{k} P_{i}

解方程组: 有:

frac{partial L}{partial P_{i}}=log P_{i} 1 lambda=0
log P_{i}=-1-lambda
P_{i}=2^{-1-lambda}

由于之间两两相等,且和为1 因此有:

P_i=frac{1}{k}

即当所有可能性的概率相等时熵最大 此时熵:

H(X) = sumnolimits_{i = 1}^{i = k} {frac{1}{k}log frac{1}{k} = log frac{1}{k}}

条件熵

  • 对于随机变量 Y X , 条件嫡 H(Y mid X) 表示:已知随机变量 X 的条件下,随机变量 Y 的不确定性。 它定义为: X 给定条件下 Y 的条件概率分布的嫡对 X 的期望:
  • 对于离散型随机变量,有.
H(Y mid X)=sum_{x} p(x) H(Y mid X=x)=-sum_{x} sum_{y} p(x, y) log p(y mid x)
  • 对于连续型随机变量,有:
H(Y mid X)=int p(x) H(Y mid X=x) d x=-iint p(x, y) log p(y mid x) d x d y
  • 根据定义可以证明: H(X, Y)=H(Y mid X) H(X) 。 即:描述 X Y 所需要的信息是:描述 X 所需要的信息加上给定 X 条件下描述 Y 所需的额外信息。

参考资料

  • https://zhuanlan.zhihu.com/p/85779990
  • http://www.huaxiaozhuan.com/数学基础/chapters/2_probability.html
  • https://baike.baidu.com/item/信息论/302185?fr=aladdin

0 人点赞