今天给大家介绍来自加拿大蒙特利尔大学Mila人工智能研究所唐建教授课题组在ICML2020上发表的一篇关于关系抽取的文章。作者利用全局关系图来研究不同句子之间的新关系,并提出了一种新的贝叶斯元学习方法。该方法能够有效的学习关系原型向量的后验分布,并利用图神经网络参数化初始先验分布,并使用随机梯度Langevin动力学优化原型向量后验分布。最后实验表明,本文方法要优于目前小样本关系抽取模型的性能。
1
引言
在关系抽取任务中,注释大量的句子集是费时且昂贵的,因此标记数据的数量非常有限。通常的解决方法是采用远程监督,然而远程监督的缺陷是生成的数据噪声较多。因为两个实体之间可能存在多种关系,很难确定实体对在特定的上下文中属于哪一种关系,或者句子是否表达了某种关系。
目前人们倾向于使用元学习的方法来提取关系。元学习的思想是用大量不同的任务来训练模型,每个任务都有几个例子来演示,这样学习的模型就可以快速推广到只有几个例子的新任务。但该方法训练数据的信息量仍然有限,其性能仍然不尽人意。为了更有效地推广到新的关系和任务,作者提出了利用全局图的方法建模不同的关系。全局关系图提供了不同关系之间关系的先验知识,允许我们在关系之间转移监督以及在没有扩充带标签的句子的情况下推广这些关系。此外,作者提出了一种新的贝叶斯元学习方法,通过学习基于标记句子的关系原型向量(即支持集)和全局关系图实现小样本关系抽取。
2
相关工作
2.1小样本学习和元学习
作者的工作与小样本学习和元学习有关。其目标是训练具有不同任务的深度学习模型,其中每个任务都由几个具体的例子进行演示,以便模型能够快速适应新的任务。
一种代表性方法是基于度量的方法,基本思想是学习基于实例给出的每个类的原型向量,并利用原型向量进行预测。另一种代表性方法是基于优化的方法。与这些以学习原型向量或模型参数的点估计为目标的方法相比,作者的方法将它们作为随机变量,建立它们的后验分布,从而处理这些原型向量或参数的不确定性。
最近还有一些研究也在使用元学习的贝叶斯学习技术,使用后验分布推导原型向量或模型参数。然而,这些方法忽略了不同类之间的关系,而我们通过将图神经网络应用到类别的全局图上来建模这些关系,从而允许我们的方法更好的推广到所有不同的类。此外,作者对后验分布建立了更有效的模型。作者的方法使用随机梯度Langevin动力学执行蒙特卡罗采样优化,更灵活和有效。
2.2关系抽取
作者将关系的全局图视为先验知识,并提出一种有原则的贝叶斯元学习方法来利用全局图,它能够更好地泛化不同的关系。
3
问题定义
在本文中,作者提出用关系的全局图来研究小样本关系提取,其中描述所有可能关系的关联的全局图被认为是一个额外的数据源。更正式地,我们将全局关系图表示为G = (R;L),其中R是所有可能关系的集合,L是不同关系之间的联系的集合。关联关系可能具有更相似的语义。
4
模型
在这一节中,我们将介绍使用全局关系图进行小样本关系提取的方法。作者的方法用原型向量来表示每一种关系,并且用于对查询语句进行分类。与大多数学习原型向量一个点估计的元学习方法不同,作者将原型向量作为一个随机变量来模拟它的后验分布。后验分布自然由两个项组成,即全局关系图得到的原型向量的先验和支持句的似然函数。作者通过将一个图神经网络应用于全局关系图,对后验中的先验分布进行参数化,并利用BERT对标记句子进行似然参数化。通过使用这种基于图的先验,我们的方法可以有效地推广到不同的关系。但是,由于原型向量的后验分布形式复杂,优化仍然是一个挑战。为了解决这个问题,我们通过蒙特卡罗抽样来近似后验分布,其中原型向量的多个样本使用随机梯度Langevin动力学来确定。通过这样做,我们的方法可以以端到端方式进行有效优化。
模型框架如下图所示:
5
实验
在本节中,作者在两个基准数据集上对提出的方法进行了实证评估,并同时考虑了少量样本和零样本学习设置。
5.1数据集
FewRel:最近提出的少样本关系提取的数据集。只公开了训练集和验证集,测试集不是公共的。
NYT-25:NYT-25的原始数据来自FewRel的官方网站,其中25关系下的标记句子是通过注释纽约时报数据来提供的。数据集没有区分训练、验证和测试集。因此,作者随机抽取10个关系进行训练,5个关系进行验证和剩余10个关系进行测试。
5.2参数设置
在作者的方法中,我们使用BERTBASE(Devlin等人, 2019)作为编码器来编码句子中的所有标记。然后我们跟随Soares等人(2019),将句子中实体提及的标记编码合并为句子编码。
作者对先进的元学习算法做同样的事情,例如,MTB, Proto, MAML, Versa, BMAML,以便进行公平的比较。对于原型向量的高斯先验,我们将一层图卷积网络(Kipf & Welling, 2017)应用到全局关系图上计算均值。对于随机梯度Langevin动力学,默认情况下,要绘制的样本数设置为10,这和其他贝叶斯元学习方法使用的是一样的。
5.3结果
FewRel测试集、FewRel验证集和NYT-25测试集的主要结果见下面三张表格。
从表2中,我们可以看到GNN和SNAIL的结果竞争力较低,这表明它们对文本数据建模的效率较低。与专门为小样本关系提取而设计的Pair和MTB相比,作者的方法在所有表中都取得了较好的结果,说明作者的方法在给定几个样本情况下可以更好地推广到各种关系。
此外,作者的方法也优于其他元学习方法。与MAML和原型网络(Proto)相比,该方法的性能提升主要来自两个方面。一方面,作者的方法考虑了不同关系的全局图,它提供了所有关系之间关联的先验知识,使我们的方法能够更好地适应不同的关系。另一方面,该方法采用了贝叶斯学习框架,有效地处理了原型向量在不同关系下的不确定性。此外,作者的方法也优于其他贝叶斯元学习方法,如Versa和BMAML。原因是作者在后验分布中考虑了一个基于图的先验,使得作者的方法更加强大。该方法通过随机梯度Langevin动力学的蒙特卡罗抽样进行优化,更有效地建立和优化后验分布模型。
6
结论
本文研究了在小样本学习环境下的关系抽取,其核心思想是考虑全局关系图,该图捕捉了关系之间的全局关系。作者提出了一种新的贝叶斯元学习方法,旨在建立原型向量在不同关系下的后验分布模型。图神经网络应用于全局关系图,参数化后验先验分布。采用随机梯度Langevin动力学对后验分布进行优化。在两个数据集上的实验证明了该方法的有效性。在未来,作者计划在现有研究的基础上研究自动学习关系图的结构,并将该方法应用到少样本图像分类等其他领域中。
参考资料
https://arxiv.org/abs/2007.02387