第二章 数学基础
2.1 概率论基础
基本概念 概率(probability) 最大似然估计(maximum likelihood estimation) 条件概率(conditional probability) 全概率公式(full probability) 贝叶斯决策理论(Bayesian decision theory) 贝叶斯法则(Bayes’theorem) 二项式分布(binomial distribution)
期望(expectation) 方差(variance)
在自然语言处理中,以句子为处理单位时一般假设句子独立于它前面的其它语句,句子的概率分布近似地符合二项式分布。
2.2信息论基础
熵(entropy) 香农(Claude Elwood Shannon)于1940年获得MIT数学博士学位和电子工程硕士学位后,于1941年加入了贝尔实验室数学部,并在那里工作了15年。1948年6月和10月,由贝尔实验室出版的《贝尔系统技术》杂志连载了香农博士的文章《通讯的数学原理》,该文奠定了香农信息论的基础。 熵是信息论中重要的基本概念。
如果X是一个离散型随机变量,其概率分布为:p(x) =P(X=x),xX属于。X的熵H(X)为:
熵又称为自信息(self-information),表示信源X每发一个符号(不论发什么符号)所提供的平均信息量。熵也可以被视为描述一个随机变量的不确定性的数量。一个随机变量的熵越大,它的不确定性越大。那么,正确估计其值的可能性就越小。越不确定的随机变量越需要大的信息量用以确定其值。
1970年代末期冯志伟教授首先开展了对汉字信息熵的研究,经过几年的文本收集和手工统计,在当时艰苦的条件下测定了汉字的信息熵为9.65比特(bit)。1980年代末期,刘源等测定了汉字的信息熵为9.71比特,而汉语词的熵为11.46比特。 汉语词汇平均长度约为2.5个汉字。
联合熵
如果X,Y是一对离散型随机变量X,Y~p(x,y),X,Y的联合熵H(X,Y)为:
联合熵实际上就是描述一对随机变量平均所需要的信息量。
熵率
相对熵(relative entropy, 或称 Kullback-Leibler divergence, KL 距离)
两个概率分布 p(x) 和 q(x) 的相对熵定义为:
相对熵常被用以衡量两个随机分布的差距。当两个随机分布相同时,其相对熵为0。当两个随机分布的差别增加时,其相对熵也增加。
当两个汉字 x 和 y 关联度较强时,其互信息值 I(x, y)>0;x 与y 关系弱时,I(x, y)≈0;而当I(x, y)<0时,x 与 y 称为 “互补分布”。
在汉语分词研究中,有学者用双字耦合度的概念代替互信息:
设 ci,ci 1是两个连续出现的汉字,统计样本中ci,ci 1连续出现在一个词中的次数和连续出现的总次数,二者之比就是ci,ci 1的双字耦合度:
理由:互信息是计算两个汉字连续出现在一个词中的概
率,而两个汉字在实际应用中出现的概率情况共有三种:
(1)两个汉字连续出现,并且在一个词中;
(2)两个汉字连续出现,但分属于两个不同的词;
(3)非连续出现。
有些汉字在实际应用中出现虽然比较频繁,但是连续在一起出现的情况比较少,一旦连在一起出现,就很可能是一个词。这种情况下计算出来的互信息会比较小,而实际上两者的结合度应该是比较高的。而双字耦合度恰恰计算的是两个连续汉字出现在一个词中的概率,并不考虑两个汉字非连续出现的情况。
例如:“教务”以连续字符串形式在统计样本中共出现了16次,而“教”字出现了14 945次,“务”字出
现了6 015次。(教, 务) 的互信息只有 -0.5119。如果用互信息来判断该字对之间位置的切分,是要断开的。但实际上,字对 (教, 务) 在文本集中出现的16次全部都是“教务”、“教务长”、“教务处”这几个词。连续字对 (教, 务) 的双字耦合度是1。因此,在判断两个连续汉字之间的结合强度方面,双字耦合度要比互信息更合适一些。
说明:两个单个离散事件(xi, yj)之间的互信息I(xi, yj)可能为负值,但两个随机变量(X, Y)之间的互信息I(X, Y)不可能为负值。后者通常称为平均互信息。
关于两个随机变量之间平均互信息为非负值的证明见本课件附录2。
噪声信道模型(noisy channel model)
在信号传输的过程中都要进行双重性处理:一方面要通过压缩消除所有的冗余,另一方面又要通过增加一定的可控冗余以保障输入信号经过噪声信道后可以很好地恢复原状。信息编码时要尽量占用少量的空间,但又必须保持足够的冗余以便能够检测和校验错误。接收到的信号需要被解码使其尽量恢复到原始的输入信号。
噪声信道模型的目标就是优化噪声信道中信号传输的吞吐量和准确率,其基本假设是一个信道的输出以一定的概率依赖于输入。
2.3 应用实例
例2-6: 词汇歧义消解
问题的提出
任何一种自然语言中,一词多义(歧义)现象是普遍存在的。如何区分不同上下文中的词汇语义,就是词汇歧义消解问题,或称词义消歧(word sense disambiguation, WSD) 。
词义消歧是自然语言处理中的基本问题之一。
例如:
(1)他打鼓很在行。
(2)他会打家具。
(3)他把碗打碎了。
(4)他在学校打架了。
(5)他很会与人打交道。
(6)他用土打了一堵墙。
(7)用面打浆糊贴对联。
(8)他打铺盖卷儿走人了.
(9)她会用毛线打毛衣。
(10)他用尺子打个格。
(11)他打开了箱子盖。
(12)她打着伞走了。
(13)他打来了电话。
(14)他打了两瓶水。
(15)他想打车票回家。
(16)他以打鱼为Th。