Entroy

2022-09-06 08:51:24 浏览数 (1)

点击查看【bilibili】

1章 绪论.pdf

2章 离散信源及其信息测度.pdf

熵和概率

熵可以从随机变量状态需要的平均信息量角度理解, 也可以从描述统计力学中无序程度的度量角度理解.

关于熵, 条件熵, 互信息, 这些内容在5.2节有对应的描述.

下面看下信息熵在PRML中的表达 假设一个发送者想传输一个随机变量xxx的值给接受者. 在这个过程中, 他们传输的平均信息量可以通过求信息h(x)关于概率分布p(x)的期望得到. 这个重要的量叫做随机变量xxx的熵

Venn图辅助理解和记忆, 这个暂时不画, 下面考虑下为什么Venn图能帮助理解和记忆?

因为熵的定义把连乘变成了求和, 对数的贡献. 这样可以通过集合的交并来实现熵之间关系的理解.

  1. 联合熵(相当于并集)

这个通过Venn应该是相对容易记忆,是不是容易理解这个。 如果X和Y独立同分布,联合概率分布P(X,Y)=P(X)P(Y) 5. 条件熵 条件熵是最大熵原理提出的基础,最大的是条件熵,这个在书中有写(定义6.3) 条件熵衡量了条件概率分布的均匀性 最大熵,就是最大这个条件熵

接下来的概念,把熵的思想应用在模式识别问题中。 6. 互信息

互信息(mutual information),对应熵里面的交集,常用来描述差异性 一般的,熵H(Y)与条件熵H(Y∣X)之差称为互信息。注意一下,这里中用到了H(D,A) 可以对应理解下。

  1. Feature Selection
  2. Feature Correlation,刻画的是相互之间的关系。 相关性主要刻画线性,互信息刻画非线性

注意这里,参考下中关于互信息的描述 注意这里面类Y, 特征X。 互信息和条件熵之间的关系 I(x,y)=H(X)−H(x∣y)=H(y)−H(y∣x) 可以把互信息看成由于知道yyy值而造成的xxx的不确定性的减小(反之亦然)。这个就是信息增益那部分的解释

决策树学习中的信息增益等价于训练数据集中特征的互信息

  1. 信息增益 这个对应的是第五章的内容,决策树学习应用信息增益准则选择特征。 g(D,A)=H(D)−H(D∣A) 信息增益表示得知X的信息而使类Y的信息的不确定性减少的程度。 在决策树学习中,信息增益等价于训练数据集中类与特征的互信息。
  2. 相对熵 (KL 散度) 相对熵(Relative Entropy)描述差异性,从分布的角度描述差异性,可用于度量两个概率分布之间的差异。 KL散度不是一个度量,度量要满足交换性。 KL散度满足非负性。

考虑由p(x,y)给出的两个变量x和y组成的数据集。如果变量的集合是独立的,那么他们的联合分布可以分解为边缘分布的乘积p(x,y)=p(x)p(y) 如果变量不是独立的,那么我们可以通过考察联合分布边缘分布乘积之间的KL散度来判断他们是否"接近"于相互独立。

这被称为变量xxx和变量yyy之间的互信息. --PRML 1.6.1

  1. 交叉熵 刻画两个分布之间的差异

CNN时候常用

对于各种熵的理解,是构建后面的目标函数的基础。

0 人点赞