大模型时代,图表征学习在NLP领域的应用

2023-10-09 12:49:40 浏览数 (1)

近年来,随着图表征学习(Graph Representation Learning)越来越受到关注,自然语言处理领域也出现了许多利用其解决实际问题的研究。

图表征学习相关算法可以应用到自然语言处理领域的各个任务中,为解决自然语言处理任务提供了全新的视角。下面将介绍其中代表性的任务和方法。

01

文本分类

文本分类(Text Classification)是自然语言处理领域中一个基础和重要的任务。 早期,对于文本分类的研究,主要通过手工设计特征或词语嵌入等方法提取文本特征并分类。一类将图表征学习用于本文分类的方法关注于论文等有显式关系的特定文本,并通过论文引用等显式关系建立图结构,然后使用图表征学习建模引用关系,从而辅助文本分类的目标。 对于其他没有显式链接关系的文本,例如普通的文档、新闻等,也有各种不同的方式构建图结构,从而发挥图表征学习的作用。下面介绍用于文本分类的图表征学习方法。

句法树(Syntex Tree)是对一个句子中不同组成元素间结构、层次和功能关系的通用描述方式。由于树可以被视为一种特殊的图,因此许多方法基于句法树进行图表征学习以辅助文本分类。

  • ASGCN(Aspect-Specific Graph ConvolutionalNetwork)从句子中提取句法树结构来表示单词之间的关系,并使用图卷积神经网络在句法树中建模表征,从而更好地处理情感分类问题。
  • SAGAT(Syntax-Aware Graph ATtention network)和TD-GAT(Target-Dependent GraphATtention network)均使用句法树来构建图,并使用图注意力网络来建模表征。
  • R-GAT(Relational Graph ATtention network)提出,由于句法树中只有一部分信息真正对文本分类任务起作用,因此并不需要建模整个树结构,并提出基于不同方面(aspect)的树重塑和剪枝算法来提取句法树中的关键信息,之后提出关系图注意力网络进行表征学习,从而更好地处理基于方面的情感分类问题。
  • InterGCN(Interactive Graph Convolutional Network)同样旨在更新句法树,通过对得到的句法树对应的邻接矩阵基于方面词来增强权重,并同时考虑同一句子中方面词之间的关系,以此来进一步更新图结构。之后,InterGCN 使用图卷积神经网络并结合双向长短期记忆神经网络建模表征,并利用注意力机制抽取和方面词相关的信息,从而处理基于方面的情感分类任务。
  • DGCN(Directional Graph Convolutional Network)在建模句法树关系时考虑了句法树中边的方向,对于节点的出边和入边分别建模,从而构建了有向图卷积神经网络来进一步完成方面词提取和方面词情感分类两个任务。

与前面从数据层面抽取并构建图结构的句法树不同,Hier-GCN(HierarchicalGraph Convolutional Network)直接从类别中抽取图关系,依据方面类别和方面词对情感类别的贡献信息,构建了类别的分层异质图,之后利用分层图卷积网络分别显式地建模类别和情感节点,以更好地处理方面类别检测和方面情感分类任务。

THGRL(Traceable Heterogeneous Graph Representation Learning)使用丰富的用户交互信息和用户间的网络来构建数据关系图,并通过该异质图进一步辅助处理方面检测和知识转移任务。THGRL 提出使用随机游走和游走追踪算法进行异质图的表征学习。

TextGCN针对一般的文本分类问题提出了一种根据词共现信息以及文本和单词关系信息构建文档图的方法。对于一个文本数据集,TextGCN 首先构建了一个图,词和文本构成节点,图中每两个节点之间的边权重根据单词共现信息以及文本和单词的关系设置:

均为单词是文本是单词其他

式中,TF-IDF(Term Frequency–Inverse Document Frequency)是自然语言处理的一种常见统计指标;PMI 则表示点互信息(Pointwise Mutual Information),计算公式为

式中, 表示数据集中包含单词 的滑动窗口的数量; 表示包含 和 滑动窗口的数量; 表示数据集所有的滑动窗口的数量。通过只保留正的点对互信息,可以只保留有很高语义相关性的单词关系。构建图之后,TextGCN使用图卷积神经网络进行消息传递,学习单词和文本的表征并处理文本分类问题。

TG-Transformer(Text Graph Transformer)使用与TextGCN相同的方式来构建图,但将其视为一个有两种类型节点的异质图,记为 ,其中 分别表示单词节点、文档节点、单词-文档边及单词-单词边。TG-Transformer采用文本图采样的方式使得算法能够扩展到大规模图上。首先,基于邻接矩阵计算整个异质图的相似度矩阵:

式中, 表示对称归一化的邻接矩阵; 表示一个超参数。之后,对于每一个文档节点 ,TG-Transformer选取 个相似度最大的单词邻居节点 作为采样子图上的节点。对于每个单词节点 ,首先计算其与该单词相关联的边类型的比例:

式中, 和 表示相似度大于一定阈值的单词-单词边与单词-文档边; 表示单词边的比例; 表示文档边的比例。然后,按照上述比例采样单词节点的 个邻居节点,即使用相似度最大的前 个单词节点和 个文档节点来构成单词节点 的邻居节点。随后,TG-Transformer层中的自注意力机制计算信息的融合:

式中, 表示表征的维度; 表示注意力机制的查询、键、值矩阵; 为对应的可学习参数。此外,TG-Transformer还采用了残差连接来防止图神经网络的过平滑问题。最终,最后一层的表征会通过一个平均值池化作为文档表征,以用于文本分类任务。

TextING(Text INductive Graph Neural Network)提出了一种归纳式的图构建和学习方式来充分地利用更多的文本上下文信息,以处理新出现的词、新的文档等冷启动问题。TextING同样利用词贡献信息构建图上的边,但采用每个文档构建一个图的方式,舍弃全局结构来避免无效信息的干扰。此外,TextING使用门控机制进行消息传递,计算方式如下:

式中, 表示sigmoid函数; 、 和 表示可训练的参数; 和 表示更新门和重置门。经过若干层消息传递后,最后一层表征会经过如下的门控机制和图池化得到文档表征:

式中, 和 表示一层全连接神经网络。文档表征则会被用于后续文本分类任务。

HGAT(Heterogeneous Graph ATtention networks)则通过主题模型等方法抽取出短文本中的话题和实体,并使用短文本、话题和实体构建异质图,通过异质图注意力网络将额外信息融合进短文本表征,以应对短文本分类任务中数据稀疏性的挑战。

02

关系抽取

关系抽取(Relation Extraction)旨在提取文本中的一些特定形式的依赖关系。近年来,也有许多方法使用图表征学习建模关系抽取相关问题。

Zhang等人使用图嵌入和图神经网络等方法从知识图谱中显式地抽取关系知识,并使用这些信息更好地辅助关系类别的长尾分布建模尾部类别。

  • AGGCN(Attention Guided Graph Convolutional Network)使用句法树信息作为额外的图结构学习表征。为了有效地去掉句法树中无用的信息,AGGCN使用图卷积和多头自注意力混合网络来软剪枝已有的句法树连接关系,从而更好地处理关系抽取问题。
  • GPGNN(Generated Parameters Graph Neural Network)将句子中的所有实体建模为一个全连接图,然后使用自然语言处理的编码器(例如长短期记忆神经网络、卷积神经网络等)学习图中边的信息,再使用图神经网络学习节点表征,使得图神经网络可以用于关系抽取任务。

GraphRel将实体识别(Entity Recognition)问题和关系抽取问题联合建模,同时考虑实体间的关系和相互影响。针对句子,GraphRel首先使用长短期记忆神经网络和图卷积神经网络提取文本关系和句法树结构信息,得到对应的实体和关系之后,然后根据这些关系再构建单词的全连接图,并使用前面建模出的关系作为边的权重,最后再次利用图卷积神经网络实现更有效的实体关系建模。

03

文本生成

文本生成(Text Generation)同样是自然语言处理领域的经典任务之一,并由于GPT-3、ChatGPT等大模型的成功受到了广泛关注。

为生成符合特定要求的文档,早期研究尝试基于表格等人工整理的结构化数据生成文本。但由于整理表格数据需要昂贵的人工成本,越来越多的研究者将目标转向如何基于信息抽取系统等自动化提取的信息来生成文本。其中,有许多研究者利用信息抽取系统所提供的图信息来建模表征。

GraphWriter基于信息抽取系统,首先从目标文章的简介中抽取实体、共同引用和关系标注等信息,用这些信息构建实体的关系图。然后GraphWriter使用一种基于注意力机制的图神经网络从图中进一步抽取信息并建模表征,从而更好地在生成文本的过程中考虑图中蕴含的信息。

也有许多方法基于抽象语义表示(Abstracted Meaning Representation,AMR)来生成文本。抽象语义表示是将句子中的词语抽象为概念和关系的一种表示方法,可以形式化为带根节点的有向无环图。这些方法一般在抽象语义表示图上使用图表征学习,然后使用带有注意力机制的循环神经网络等方法,基于提取出的图信息生成文本,这也经常被称为图到序列(Graph-to-Sequence)的学习问题。例如,Song等人和Beck等人提出将图神经网络与长短期记忆神经网络等循环神经网络结合,以表征抽象语义表示图,是该方向最早期的研究者之一。Damonte和Cohen分析了使用图神经网络与使用其他方法表征图结构在模型效果上的区别。

DCGCN (Densely Connected Graph Convolutional Network)使用带有稠密连接的图神经网络来增加图神经网络的深度并聚合局部图信息和全局图信息。Zhao等人则使用线图(Line Graph)的方式将抽象语义表示图分解为两个图——线图和概念图,并使用混合阶的图注意力网络来显式地建模多跳邻居的关系。Ribeiro等人将抽象语义表示图拆解为两个反方向的图,即一个图采用原始的边方向,另一个图则将所有的边反向,也称为Levi变换图。然后,在这两个图上分别利用图神经网络建模图信息,以捕捉抽象语义表示自顶向下和自底向上的信息。HetGT(Heterogeneous Graph Transformer)在上述方法的基础上,进一步将抽象语义表示图分解为四个子图——全连接图、原始连接图、Levi变换图和反向图,并使用异质图注意力网络来分别学习四个子图的图表征,以更进一步显式地抽取不同关系蕴含的信息。

Li等人采用图表征学习来生成中文评论文本。作者首先提取新闻内容的关键词,并将每一个关键词设为一个节点。除关键词外,作者额外设计了标题和空两个节点,用于单独考虑标题句子和不含任何关键词的句子。节点与节点之间的边权重按照两个节点之间重叠的句子个数计算。构建好关键词的图之后,作者将每个节点包含的句子拼接在一起,使用Transformer模型学习节点表征,并将这些表征经过带自环和残差连接的图卷积神经网络进一步优化。最后利用基于注意力机制的循环神经网络生成文本,从而在文本生成过程中考虑关键词的图信息。

HeterSUMGraph则将图表征学习应用于生成文本总结的任务。HeterSUMGraph仿照之前介绍的TextGCN构建图的方式,根据文本中的单词和句子构建关系图结构,以建模复杂的句间关系。每句话和每个单词都抽象为图中的一个节点,并将句子节点和其包含的单词节点连接在一起,使用TF-IDF指标计算边的权重。之后HeterSUMGraph使用卷积神经网络和循环神经网络提取句子层级的节点表征,并使用图注意力网络在异质图中进行迭代式的消息传递和表征学习,从而学习句子间的复杂关系。

GRF(Generation with multi-hop Reasoning Flow)使用图神经网络建模常识知识图谱,以辅助生成常识感知的文本。GRF首先将整个常识知识图谱按照文本中包含的实体进行裁剪,仅保留和文本相关的知识实体和关系。之后,R-GCN建模知识图谱,并按照下列方式更新节点表征和关系表征:

式中, 和 分别表示节点表征和关系表征; 表示受TranE模型设计的节点表征组合操作; 、、 表示可学习参数。通过上述消息传递机制,可以学习节点的表征 和关系表征 表示消息传递的层数。对于解码器的序列生成部分,GRF使用预训练的Transformer建模文本条件概率

式中, 和 分别表示第 个词元(Token)的编码和位置编码; 表示第 层中,截至生成第 个单词的隐状态; 表示该预训练模块生成的序列;Transformer 表示预训练的Transformer模块; 表示Transformer的层数; 和 表示可学习参数。然后,GRF使用一个显式推断过程在常识知识图谱中进行知识推理。具体来说,将知识图谱中在文本中出现的节点分数设为1,把其他节点设为0。对于那些没有被访问过的节点 ,它的分数将被以如下方式计算:

式中, 表示一个三元组的相关性得分,通过前面学习的表征计算; 表示节点的得分; 表示计算分数的函数,可以取最大值或求均值; 表示一个衰减因子以控制不同阶邻居的影响程度; 是可学习参数。直观来说,式中的推理模块采用一个递归计算的方式,通过当前解码器的状态和知识图谱的三元组表征,不断通过邻居动态更新节点的得分,以考虑图上高阶关系的影响。在若干阶的知识图谱推断之后,常识知识图谱中所有节点的概率分布可以被计算如下:

式中, 表示在t时刻选择到的知识图谱中的一个节点,即 是该推理模块生成的序列。对于下一个词的最终条件概率分布建模,GRF采用门控方式以融合常识知识图谱和预训练Transformer的结果:

式中, 是门控机制的可学习参数; 是该模型最终的输出。

MGCN(Multi-Graph Convolutional Networks)则将知识图谱分解为六种关系的图并分别建模,包括自环图、原始关系图、反向原始关系图、原始知识图谱、反向原始知识图谱和全局图。针对六个不同的图,MGCN分别使用图卷积神经网络建模,然后再融合不同图的表征以抽取图的关系信息。

LDGCNs(Lightweight Dynamic Graph Convolutional Networks)是一种轻量级的动态图卷积网络,在保证训练参数数量较少和网络轻量级的同时,考虑多阶邻居和非局域操作对图卷积网络的影响,以在抽象语义表示图上执行文本生成任务。轻量级动态图卷积网络采用一个门控方式融合不同阶邻居的信息,具体计算方式为

式中, 表示第 层中用于控制第 阶邻居的邻接矩阵 与一阶邻接矩阵 的门控矩阵; 为节点第 层的表征; 和 为可学习参数; 为预设的最大阶数。为了更好地融合非局部的信息,LDGCNs使用稠密连接的方式来构建每个隐层,即将式中的 替换为

实验结果表明,LDGCNs可以在有效减少参数量的情况下取得优异的性能。

04

问答系统

问答系统,特别是涉及多步推理的问题,需要对自然语言信息进行更复杂的建模并允许模型进行更复杂的推理。

由于图可以显式地建模数据之间的关系,考虑图表征学习的问答系统正受到越来越多的关注,特别是辅助深度学习算法完成多跳问答任务。总体来说,问答系统从数据中建模图结构的方式可以大概分为三种:

  • 第一种方式直接从相关文本中提取和任务有关的实体,将实体作为节点构建整个图结构,边则考虑实体在相关文本中的位置信息(比如共现信息、上下文信息等)进行构造。
  • 第二种方式和文本分类任务中TextGCN的图构造方式相似,将文本、句子、单词、实体都作为图中的一部分,建模更加丰富的关系信息。
  • 第三种方式通过其他辅助信息构建图结构,比如知识图谱、表格数据和关系数据等。

在构建好关系图之后,问答系统的问题回答一般分成三个步骤:节点表征初始化、图的消息传递、答案分类与问题求解。

接下来,以EntityGCN为例,具体介绍问答系统的构建过程。

该方法旨在通过建立文档中的实体关系图来更有效地学习表征,从而进行多跳推理,并从构建的图中得到问题答案。对于一个问答数据集 ,其中 是查询问题, 是其对应的文档数据集, 是候选答案的集合,其中每个元素均是支持集 中出现过的实体, 是最终的答案。另有一个由三元组 构成的知识图谱, 是主语实体, 是宾语实体, 为它们之间的关系。根据问题所代表的查询对 提取所有相关实体来组成图的节点,并采用以下三种方式构造节点间的边:通过文档共同出现信息连接的文档边、通过判断是否为相同实体的匹配边,以及通过判断是否处在相同引用链上的共引用边。同时,为了处理图中的孤立节点,额外增加第四种类型的边:如果两个节点之间没有上述三种边的任意种边,则用第四种边连接它们。第四种类型的边可以看作全连接图关于前三种边构成图的一个互补图。

在构建图结构之后,EntityGCN使用上下文信息感知的表征模型ELMo(Embeddings from Language Model)以及关系图卷积神经网络预测答案。

具体来说,首先使用ELMo预训练模型建立问题感知的单词表征:

式中, 表示一个多层感知机; 表示问题的表征,由问题词对应的ELMo表征再通过一个双向循环神经网络编码; 表示第 个候选答案的ELMo表征。之后,EntityGCN采用如下的门控图卷积神经网络进行消息的聚合以及节点的表征更新:

式中, 表示节点 的所有邻居; 表示上述定义的两个节点间四种可能的边; 表示tanh非线性激活函数; 表示一个非线性激活函数; 表示需要学习的变换函数; 表示消息向量; 表示门控向量。最终,经过L层的消息传递,最后的答案分布可以使用以下方式建模:

式中, 表示一个带参数的仿射变换; 表示候选答案集合 对应的图上节点的集合。

05

其他任务

图表征学习还在自然语言处理的许多其他任务中被广泛地研究和使用,例如单词嵌入、命名实体识别(Named EntityRecognition)、对话系统、机器翻译和阅读理解等

在这些任务中,不同方法同样通过挖掘自然语言中蕴含的丰富的图结构信息,例如句法树、语义依存信息、单词共现信息等,然后使用已有的或针对性设计的图神经网络等图表征学习方法,从图结构中提取任务相关的信息并辅助需要处理的任务。

本文摘自《图表征学习:迈向动态开放环境》一书

0 人点赞