在科学研究中,从方法论上来讲,都应“先见森林,再见树木”。当前,人工智能学术研究方兴未艾,技术迅猛发展,可谓万木争荣,日新月异。对于AI从业者来说,在广袤的知识森林中,系统梳理脉络,才能更好地把握趋势。为此,我们精选国内外优秀的综述文章,开辟“综述专栏”,敬请关注。
作者:知乎—所追寻的风
地址:https://www.zhihu.com/people/pang-zhao-xu-91
分享一下近期知识图谱调研制作的PPT,这个PPT主要从知识的表示学习,知识获取,知识应用三个角度对知识图谱领域进行介绍,整体框架主要参考了 A Survey on Knowledge Graphs: Representation, Acquisition and Applications.
最近深度学习模型特别是基于deep transformer的预训练语言模型在NLP的各个领域取得了卓越的效果,开启了NLP的新时代。但是这些模型往往缺乏事实知识(Factual knowledge),而事实知识作为一先验信息往往在自然语言理解中起重要作用。如何表示知识?如何将知识引入到模型?知识图谱作为一种直观的表示方式,将知识描述为三元组的形式。这种symbolic描述方式符合人对知识的直观感受,具备一定的知识表示能力和推理能力,但是难以和neural model结合。这就引出了知识表示学习(Knowledge Representation Learning),通过从知识图谱学习得到entity和relation的embedding,将知识融入到现有的neural model框架之下。KRL的关键是如何评估三元组的plausibility,建模为scoring function的设计问题。主要可以分为translational distance model和semantic matching model两类。前者将关系视为头实体到尾实体的某种空间变换,采用某种距离度量衡量plausibility,后者则是利用神经网络对语义相似度进行建模。
现有的大型知识图谱,其构建过程依赖于结构或半结构数据,需要大量的人工介入,存在稀疏问题,我们希望能自动化地从非结构化文本数据中构建知识图谱,这就引出了知识获取(Knowledge Acquisition)。KA可以分为图谱补全、实体发现、关系抽取三部分。图谱补全任务依赖于已有知识去预测补全三元组,模型主要有embedding-based和rule-based两类。embedding-based方法的基本思路是利用scoring function对候选实体进行排序,选取score最高的候选实体,模型采用负采样技术进行训练。rule-based方法对path建模并进行path searching补全图谱。前者有较强的特征表示能力,后者有较强的推理能力,如何将二者的优势结合也是重要的研究方向。基于GNN(GCN、GAT)的方法在现有数据集上取得了SOTA的效果。实体发现可以分为实体识别、实体分类、实体连接三部分。实体识别任务从文本中识别出entity的boundry和type,实体分类对mention进行更细粒度的分类,实体连接将文本中的entity mention对应到知识图谱中的某一entity上。关系抽取方面,为了解决关系的长尾分布特点导致的数据稀疏问题,提出了远程监督(Distant Supervision)方法。该方法借助知识库中已有的事实三元组对文本进行标注。远程监督较强的假设会导致数据的错误标注,因此提出了多示例学习(Multi-instance Learning)缓解这一问题。实体描述和关系别名也常被引入关系抽取模型中以提高模型表现。
知识图谱如何赋能NLP也是研究的热点。在预训练模型上引入知识的工作如ERNIE,K-BERT,KEPLER等,通过在已有模型中加入entity embedding输入或者objective function约束来引入知识。QA方面,部分工作将问题转化为图谱上的查询语句实现问答系统。推荐系统方面,部分工作通过引入知识图谱中商品的知识来解决传统协同过滤中数据稀疏和冷启动的问题。
知识图谱的概念虽然早已出现,但是知识图谱的相关技术远未成熟。未来我们希望知识图谱能和其他NLP模型互相辅助,形成闭环。回到最初的出发点,如何表示知识?知识图谱技术是当下的一种直观尝试,虽取得了一定的成果,但毕竟symbolic和neural之间还有巨大的gap,模型怎么看都不太优雅,而且三元组表达能力有限,或许未来会有更优秀的知识表示技术提出,搓搓手,很期待呢。