1. 生成问题的评估方法
nlp中的生成问题大致可以涵盖以下一些部分:
- 语言模型;
- 文本翻译;
- 内容概括 & 扩写;
- ……
本质而言,他就是要对一段机器生成的文本来评估其生成质量的好坏。
有关这部分内容,他又可以分为有监督的和无监督的,前者已经有了一些参考的生成结果可以比对,后者完全没有任何参考文本,只能通过文本本身来评估生成质量。
其中有监督的部分我们还可以将其进一步细分,传统的评估方式大都是通过纯字符匹配的方式来对生成文本与参考文本进行比对,比如bleu,rouge等,其优点在于速度快,但是缺点在于无法真正理解语意,因此与真实的质量评估上总是存在一个不小的gap。
基于此,后来就衍生出了使用模型本身来对文本质量进行评估的评估模型,比如bleurt,他们在文本评估方面会更为准确,但是需要大量的训练数据,而且运行起来速度会比较慢。
综上所述,我们可以将其概括为如下:
- 无监督
- ppl
- 有监督
- 纯字符匹配方式
- bleu
- rouge
- ……
- 模型指标学习
- bleurt
- ……
- 纯字符匹配方式
- 人工评判方式
下面,我们来逐次对其进行考察。
2. 常用metrics
1. ppl
ppl的全称为perplexity,他表示一句话中每一个词出现的概率倒数的均方平均,用公式表达如下:
因此,由定义我们就可以看到:
- 通常而言,ppl越小,表示文本的上下连贯度越高,文本越通顺。
但是,由于n-gram的概率计算复杂度太高,通常而言,我们都会使用马尔可夫假设,即当前输出词汇只与上一个词汇相关,这样就可以大大地简化问题。
但是,同样,这样带来的问题就是,ppl指标只能表征词汇的通顺度,但是在语义上是无法做出什么保证的。
例如:
- New York is human being.
上面这句话的ppl值大概率就会很小,但是语义上确实完全不合理的。
2. bleu
bleu全称bilingual evaluation understudy,它以及后续的rouge指标是最常用的评价有监督生成问题(比如翻译、内容概括、内容生成等)的自动化统计指标。
他们的核心思想都在于比较生成文本与参考文本间的字符串重合度。
下面,我们首先给出bleu指标的计算公式,
我们来具体考察一下各个指标的计算。
1. 句长惩罚因子BP
2. n-gram字符匹配精度与权重因子
现在,我们来考察n-gram的字符匹配精度计算公式。
他的核心思想是:
- 统计生成文本中的n-gram词汇在参考文本中出现的比例(精度)。
同样的,我们首先给出定义公式,而后结合定义公式进行考察。
3. 样例说明
我们给出一个例子来进行具体的计算说明如下:
- 生成文本:明天天天气好
- 参考文本:今天天气真的好
3. rouge
rouge指标与bleu指标极其相似,但是,相较于bleu关注于生成的精度,rouge更看重生成的召回。
他的核心思想是:
- 考察参考文本中的n-gram词汇在模型生成文本中的出现比例。
除此之外,rouge没有句长惩罚因子,他的公式可以直接表达为如下形式:
根据n的取值不同,rouge可以分为rouge-1, rouge-2等等。
另外还有常用的rouge指标还有rouge-l,他是rouge-n的一种变体:
- 它的分母还是参考文本的长度,他的分子则是生成文本与参考文本的最长公共子序列。
用公式表达如下:
同样的,我们使用上文中的例子来进行计算说明:
- 生成文本:明天天天气好
- 参考文本:今天天气真的好
则有:
4. bleurt
bleurt来源于文献:BLEURT: Learning Robust Metrics for Text Generation
他的思想事实上也是比较简单的:
- 经验已经证明大规模的统计机器学习模型具有很强的特征抓取能力,因此,我们就直接基于大量的数据来训练一个生成文本与参考文本间的评估质量模型,用这个模型来进行生成文本质量的评估。
通过这种方式,上述文献中的文本质量评价结果足以碾压bleu以及rouge指标,直逼人类的真实评估水平。
但是,同样的,就如所有的机器学习模型一样,这种方式强烈依赖于训练数据,且评估成本很大,耗时很长,因此目前还没有看到业内有大量的使用迹象。
3. 参考链接
- 语言模型评价指标Perplexity
- 一种机器翻译的评价准则——Bleu
- 机器翻译自动评估-BLEU算法详解
- 自动文摘评测方法:Rouge-1、Rouge-2、Rouge-L、Rouge-S
- 发布 BLEURT,用于评估自然语言生成模型