ICML 2021 | DEM-VAE:一类新的可解释文本生成模型

2021-07-27 10:10:34 浏览数 (1)

现有的自回归文本生成模型,例如GPT-3,在生成的流畅性上已经取得了令人惊喜的效果。然而,GPT-3这类模型就像是一个插了电之后自己往外不停秃噜字的打字机,你永远无法知道它下一刻会说什么话,无法解释它为什么会说这句话,更无法插手它下一刻应该说什么话。

这就是文本生成中除了生成流畅性之外的另一个值得研究的事情——生成的可解释性。想象如下的一种人机对话生成场景,当用户下达指令“请帮我预约牙医。”时,机器可能有不同的回答。比如,机器可以回答“好的,现在就帮您预约xx号oo点的牙医。”,也可以回答“请问您需要预约到哪个时间?”。

不同的场景和不同的上下文需要的回答是不同的。如果我们能解释机器生成这些回答背后的因素(factor)是什么,就可以根据不同的需求,挑选符合需求的因素,并根据这些因素生成对应的文本。因此,探索可解释文本生成模型对于实际应用是有重大意义的。

1 简介:生成的可解释性和隐变量模型

AI 科技评论今天介绍的这篇工作就致力于从文本中发现可以解释的隐含的“因素”,来对文本的生成作出一定的解释。文本提出了一类隐变量模型——分散指数族混合VAE模型(DEM-VAE),在先验分布为混合指数族分布的VAE的基础上,本工作引入了分散项避免隐变量空间的塌缩,使得模型能够学习得到一个具有聚类结构的隐变量空间,每个类解释为不同的隐含因素,赋予生成的文本一定的可解释性。实验的结果证明,我们的模型能够在生成质量和可解释性上均超过基准模型。

论文地址:http://proceedings.mlr.press/v119/shi20f.html

代码地址:https://github.com/wenxianxian/demvae

2 隐变量模型:VAE、DVAE和GMVAE

隐变量模型是一类很适合来实现可解释的文本生成的概率模型。在隐变量模型中,我们能观察到的变量是文本本身,而蕴含于文本之下的那些可解释因素可被认为是隐含变量。隐变量模型可以从语料库中无监督地学习到数据的隐含结构,并基于隐含变量生成文本。还是上面的例子,如果隐变量模型从对话语料中学习的隐变量能够对应到可解释的因素,比如对话的行为,在选择了对应不同行为的隐变量后(例如“询问时间”或“设置提醒”),模型能够生成不同类型的回答。这就是我们想要的可解释生成模型了。

下面的问题就是,如何选择一种合适的隐变量模型,以及如何训练这个隐变量模型了。

图1: 各类VAE模型的概率图。其中,z和c分别表示连续、离散的隐变量。x是可观测变量(例如,文本)。带箭头的实线表示条件依赖关系,虚线表示变分后验的条件依赖关系。

近来年流行的变分自编码器(VAE)[1]提出了一种最简单的两层连续隐变量模型(如图1(a)所示),以及训练隐变量模型的手段。但是,这种连续的隐变量,并不适合来做可解释的生成。一般我们会假设连续变量z服从高斯分布(先验),人很难从一堆服从高斯分布的向量中解释哪个隐变量是属于哪一类的。下图是一个示例,即使属于不同对话类型的句子被映射到了不同的隐变量上,它们所属的可解释类别也很难被区分。

图2:单高斯先验VAE的隐变量空间示意图。其中,蓝色的点表示每个句子对应的隐变量。

相比之下,离散的隐变量更加适合可解释的生成,因为离散的隐变量可以直接与离散的类别信息对应。比如,Zhao提出的DI-VAE[2]模型(如图1(b)所示),就用离散的隐变量取代了VAE中的连续隐变量,并将之运用于对话系统中。离散的隐变量能够捕捉到对话行为的信息,在无监督的情况下取得了很好的可解释生成效果。然而,离散的隐变量的表达能力并不如连续的隐变量。属于同一类别的文本会被映射到同一个隐变量上,这意味着其他的隐含信息无法被捕捉。

既然离散和连续的隐变量各有优势,那么结合两者就是一个很自然的选择。高斯混合VAE(GMVAE)[3-5] 采用了一个三层的隐变量模型(如图1(d))。其中,离散的隐变量可以对应离散的类别,而基于离散的隐变量生成的连续隐变量对应属于该类别的不同句子。下图是一个示例,如图3左子图所示,不同颜色的点表示属于不同的离散类别,询问天气和设置提醒的句子被映射到了不同的“团”上。点的颜色表示不同的混合分量,点的坐标表示每个句子对应的隐变量。

图3:混合高斯先验VAE的隐变量空间示意图。左子图是DEM-VAE得到的未塌缩的隐变量空间,右子图是普通训练方法得到的塌缩的隐变量空间。

然而,在训练GM-VAE的过程中,容易发生模式塌缩现象。即,随着训练过程的进行,属于不同的混合分量的高斯分布的均值和方差变得很像。此时,GM-VAE退化成单高斯VAE,模型无法有效利用离散的隐变量,很难捕捉到语料中的多个类型的隐含因素。如图3所示(右),因为这两个先验分布变得十分靠近,这使得两个本应该属于不同类别的句子很容易被影射到同一个离散隐变量上去。

3 模式塌缩问题和DEM-VAE

模式塌缩是应用GM-VAE时必须要解决的问题。事实上,本文作者发现,在所有的混合指数族分布VAE中,都存在模式塌缩问题。因此,针对这一类的VAE模型,本工作从理论上分析了造成模式塌缩现象的原因,并根据理论分析,提出了一种有效避免模式塌缩的方法,称之为分散指数族混合VAE(DEM-VAE)。

从混合指数族分布VAE的目标函数出发,本文作者发现其中存在一项“特别”的项,称之为“分散项”(dispersion term)。本文作者发现,这一项和不同类别先验分布参数的差异程度息息相关,甚至在GM-VAE中,这一项就表达为先验参数的方差。当直接优化目标函数时,因为其中隐含了一个负的分散项,这个分散项充当了一个正则项的作用,即减小先验分布参数之间的差异,促使模式塌缩的发生。因此,如果想要阻止模式塌缩的发生,可以在目标函数中加上一个正的“分散项”,抵消负的分数项对模式坍塌的推动。这就是分散指数族混合VAE模型。

那么,这一项到底是什么?它又如何与先验分布的差异联系起来,并导致模式塌缩的发生呢?

在此本文作者隐去了具体的推导过程,感兴趣的同学可以阅读paper。分散项的表示如下所示,只与指数族分布的log配分函数A、每个类c的参数向量eta、以及对于离散隐变量的后验分布有关。

这一项具有如下的两个性质,证明这一项越小,先验分布的差异就越小。

性质1:分散项总是大于等于0的。并且,当后验分布不以概率1分布在一个类别上时(通常由另一个正则项所避免),分散项等于0,当且仅当所有的混合成分的参数相等。

下图画出了混合高斯VAE和混合类别(categorical)分布VAE的分散项随着参数变化的情况。假设

分别是两个混合分量的参数,从下图可以看出,当两个参数相等时,分散项最小,等于0。当这两个参数越不相等,分散项就越大。

图4: 混合高斯VAE(GM-VAE)和混合伯努利VAE(CM-VAE)的分散项随着两个先验参数变化的图像

性质2:最小化分散项时,也在减小先验参数的加权方差,定义为:

这是因为分散项和方差的梯度总是沿着同一个方向。当用梯度下降最大化目标函数时,因为负的分散项的存在,相当于隐式地在用梯度下降最小化先验参数的加权方差。

综合上述的两点性质,本文作者在目标函数中引入了一个正的分散项,以此来抵消模式塌缩的趋势。最终的目标函数可以表示为:

4 实验结果和讨论

本工作在Penn Tree Bank的对话数据上评估提出的模型在各类文本生成场景下的生成效果和可解释性。

首先,验证引入分散项是否能够有效避免模式塌缩。图五左子图是没有引入分散项,直接训练高斯混合VAE一万步后的结果,右子图是引入分散项后,训练一万步后的结果。灰色的点和圆的半径分别表示高斯混合先验分布的均值和标准差。后验分布的均值表示为彩色的点,其颜色对应了不同的离散隐变量。可以看出,如果直接训练VAE的目标函数,高斯混合VAE退化成单高斯VAE,而引入分散项可以有效地避免模式塌缩的发生。

图5:在DailyDialog对话数据集上训练10000步高斯混合VAE(左子图)得到的隐变量空间,以及引入了分散项后训练10000步得到的隐变量空间(右子图)

本工作在Penn Tree Bank数据上测试文本生成质量。图六左图用BLEU(机器翻译译文的自动评估指标,可以理解为准确度的评分)评估了从隐变量重构输入句子的能力,右图用reverse perplexity(逆困惑度)和word-level KL divergence(词级别的KL散度。KL散度:又叫相对熵,能帮助度量使用一个分布来近似另一个分布时所损失的信息量)验证了生成的质量和多样性,从中可以看出,本工作提出的模型有更好的重构表现和生成质量。

图6:PTB数据集上不同VAE模型的评估结果。左图以BLEU评估模型重构输入文本的能力(越大越好),右图以逆困惑度(rPPL)和词级别的KL散度(wKL)评估了模型的生成能力(越小越好)。

本工作在两个对话数据集(Daily Dialog和Stanford Multi-Domain Dialog)上验证生成的可解释性。Daily Dialog (DD)数据每条对话语句有人工打上的情感和行为标签,通过计算离散隐变量和这些类别的一致性来评估模型的可解释性,即模型是否能够无监督地从语料中发现有意义的因素。图七左子图评估了离散隐变量和标准的“行为”、“情感”标签之间的一致性,其结果说明本文的模型能够得到最好的可解释性。右子图用BLEU度量生成的对话和标准答案之间的一致性,同样,本文的模型也得到了最好的生成效果。

图7:在Daily Dialog数据上评估模型的可解释性和生成能力。

Stanford Multi-Domain Dialog(SMD)的数据没有标注标签,作者根据被分到不同离散变量下的句子,人工地为每个类打上了一个对话行为标签,并人工评估从这个离散变量生成的句子是否符合这个类被标注的对话行为,以这个一致性作为可解释性的衡量。其中一致性(consistency)评估了属于同一个离散隐变量的句子在对话行为上的一致性,质量(quality)评估了生成的回答的正确性。结果显示,本文的模型在生成稍好质量的句子的前提下,能够显著提升可解释性。

图8:在Stanford Multi-Domain Dialog(SMD)数据上人工评估模型的可解释性和生成能力。

下面给出一些生成的例子。下表1展示了对于相同的上下文,从先验分布里采样不同的离散隐变量,能够生成具有不同的对话行为的例子。

5 总结

探索可解释的文本生成模型在实际中有很大的价值,本文拓展并改善了高斯混合VAE模型,通过对于目标函数的理论分析,提出了解决其中模式塌缩问题的一类新的可解释文本生成模型 -- DEM-VAE,并且在各类文本生成场景下验证了生成效果和生成的可解释性。

参考文献:

[1] Kingma, D. P. and Welling, M. Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114, 2013.

[2] Zhao, T., Zhao, R., and Eskenazi, M. Learning discourselevel diversity for neural dialog models using conditional variational autoencoders. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), volume 1, pp. 654– 664, 2017.

[3] Dilokthanakul, N., Mediano, P. A., Garnelo, M., Lee, M. C., Salimbeni, H., Arulkumaran, K., and Shanahan, M. Deep unsupervised clustering with gaussian mixture variational autoencoders. arXiv preprint arXiv:1611.02648, 2016.

[4] Jiang, Z., Zheng, Y., Tan, H., Tang, B., and Zhou, H. Variational deep embedding: An unsupervised and generative approach to clustering. International Joint Conference on Artificial Intelligence, pp. 1965–1972, 2017.

[5] Wang, W., Gan, Z., Xu, H., Zhang, R., Wang, G., Shen, D., Chen, C., and Carin, L. Topic-guided variational auto-encoder for text generation. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pp. 166–177, 2019.

0 人点赞