信息论是运用概率论与数理统计的方法研究信息、信息熵、通信系统、数据传输、密码学、数据压缩等问题的应用数学学科。本文介绍基本概念。
信息
- 信息是用来消除事情的不确定性的,不确定性的减少量等于**信息的信息量。*
- 信息论背后的原理是:从不太可能发生的事件中能学到更多的有用信息。
- 发生可能性较大的事件包含较少的信息。
- 发生可能性较小的事件包含较多的信息。
- 独立事件包含额外的信息 。
熵
- 对于事件 X=x , 定义自信息 (self-information) 为:
- 自信息仅仅处理单个输出,但是如果计算自信息的期望,它就是嫡:
- 记作 H§
- 熵刻画了按照真实分布 P 来识别一个样本所需要的编码长度的期望(即平均编码长度)。 如:含有4个字母 (A, B, C, D) 的样本集中,真实分布 P=left(frac{1}{2}, frac{1}{2}, 0,0right) , 则只需要1位编码即可识别样本。
- 证明 已知:
建立拉格朗日方程:
解方程组: 有:
由于之间两两相等,且和为1 因此有:
即当所有可能性的概率相等时熵最大 此时熵:
条件熵
- 对于随机变量 Y 和 X , 条件嫡 H(Y mid X) 表示:已知随机变量 X 的条件下,随机变量 Y 的不确定性。 它定义为: X 给定条件下 Y 的条件概率分布的嫡对 X 的期望:
- 对于离散型随机变量,有.
- 对于连续型随机变量,有:
- 根据定义可以证明: H(X, Y)=H(Y mid X) H(X) 。 即:描述 X 和 Y 所需要的信息是:描述 X 所需要的信息加上给定 X 条件下描述 Y 所需的额外信息。
参考资料
- https://zhuanlan.zhihu.com/p/85779990
- http://www.huaxiaozhuan.com/数学基础/chapters/2_probability.html
- https://baike.baidu.com/item/信息论/302185?fr=aladdin