明略科学院提出HAO交互问答系统:无需大量训练数据,兼顾“快速响应”和“场景落地” | CIKM 2021

2021-11-05 14:55:43 浏览数 (1)

知识库问答技术主要基于知识库来帮助人们快速、准确地获取所需信息。目前,关于中文知识库问答系统的研究成果较少且以信息抽取的问答方法为主,这类方法往往通过结合大量复杂的特征与模型实现,尽管回答准确度高,但难以落地于实际场景。

近日,信息检索、知识管理以及数据库领域的顶级学术会议CIKM 2021收录了明略科技集团的一篇论文“A Chinese Knowledge Based Question Answering System”。在论文中, 明略科学院信息检索实验室提出了一种HAO交互问答系统,能够解决“快速响应”和“场景落地”两个难点。

具体而言,HAO交互问答系统能够通过知识库问答技术快速获取问句的答案路径,并利用自研的文本生成方法将其生成文本后展示到界面,便于用户理解问题答案。目前,该系统已上线,且开放了知识问答和图谱节点操作功能:

如在输入框中以文本或语音形式输入问题“王昌龄有哪些边塞诗?”并点击发送后,HAO交互系统会返回由王昌龄的边塞诗相关信息构成的答案图谱:

王昌龄的边塞诗有横吹曲辞 出塞二首、从军行七首、塞上曲、塞下曲四首和相和歌辞。

同时在答案图谱上选择一个或多个节点(按住ctrl键,并点击鼠标左键)后点击右键,系统会高亮显示这些节点的图谱路径,同时会返回由该图谱路径生成的答案文本和语音。

在线可玩:

https://irlab.mininglamp.com/#/app/ai-everything

对于技术上的优势, 明略科学院信息检索实验室介绍:“与现有问答系统相比,有三点不同之处:1) 该系统首次实现了在自定义图数据库上的问答和文本生成等功能;2) 该系统实现的答案文本生成技术无需训练数据,节省了标注成本;3) 该系统在保证回答准确度的情况下具有快速作答和容易落地等特点。”

另外,HAO交互系统的有效性通过分析系统收集的用户问答日志得到了验证,获得了较满意的结果。

1

超越“主流”的交互问答系统

目前,主流的知识库问答方法有两种——基于语义解析的方法和基于信息抽取的方法。前者主要通过对问句进行语义分析来将其转换成知识库能够理解的逻辑表达,然后推理答案。这类方法思想简单、易理解,但其实现难度大、耗费标注成本、泛化能力差。而后者的实现思路与人们回答问题的过程相似,主要通过结合特征与模型实现。虽然这类问答方法回答准确度高,但受模型和特征复杂度影响,很难落地在实际场景,比如骆金昌等人使用39个复杂特征以及多个深度学习模型提出的一种中文开放式图谱问答系统[1]。另外,这类方法主要基于三元组构成的知识库做问答,而未考虑工程领域中最常用的属性数据库。

近年来,知识问答技术已被广泛应用于智能客服、问答机器人(如小i1、薄言豆豆2)等领域。尽管这些智能体支持的数据库多、覆盖面广,但其在复杂问题上表现较差,以及实现成本高、迁移能力差,很难应用到其它领域。

为此,本文实现了一种称为HAO交互的问答系统,其优势有:提供了一种中文问答系统,其响应速度快、在实际场景中有良好AI能力;实现了一种无需大量训练数据的可适用于任意图谱数据的文本生成算法;首次实现了在用户自定义neo4j图数据库3上的问答和文本生成等功能。

2

系统架构

HAO交互系统的整体流程如图1所示,其中在语音转文本和合成语音阶段均使用了讯飞开放平台提供的接口4。下文将详细介绍知识库、知识问答和生成文本部分。

知识库

根据知识图谱数据的存储格式不同,本文将知识库分成两种—关系型知识库和属性型知识库,其存储形式如图2所示。关系型知识库是由大量形如<实体1,关系词,实体2>的三元组构成的,这类知识库在学术领域中较为常见。然而,实际应用中往往以属性型知识库为主,该类知识库的特点是所有三元组都按照事先设定的模式(schema)进行存储。另外,HAO交互提供了用户数据库接入功能,用户在连接自定义的以关系型或属性型格式存储的neo4j知识库后,便可使用该系统的功能。

知识问答

本文通过采用目前流行的信息抽取方式[2]并结合语法规则,实现了一种通用的基于Neo4j图数据存储的知识库上的识问答方法,该方法同时加入了从词嵌入语义特征(如Direction Skip-Gram[3])以提高问答效果。该方法主要包括指四个步骤:识别问题中的实体、将实体链接到知识库、候选答案路径排序、文本生成。其中,候选答案路径排序引入了两类模型:

1)使用训练数据的有监督文本匹配模型;

2)由候选答案路径与问句的字词重叠度等特征构成的无监督匹配模型。

针对属性型知识库,本文实现了根据属性值来询问相关实体的问答方法,即先获取知识库schema的所有属性,然后根据各属性与问句的字词重叠数、语义相似度等特征选取得分最高的属性,进而根据属性和属性值查询其对应的实体来推理出答案。

通过与CCKS-2019知识图谱问答竞赛第一名的问答算法[1]在该竞赛提供的百科数据集上的对比实验发现,本文问答算法的F1-Score为72.6%,虽然比CCKS-2019第一名问答算法的F1-Score低一个百分点,但是本文使用的特征和模型较简单且能够达到实际落地的速度要求。

文本生成

答案图谱通常由形如<实体1,属性词或关系词,属性值或实体2>的元组构成,尽管可以清晰地向用户展示元组数据的结构,但其具有零散性、无序性等特点,且在大多数场景下图谱是无法展示(如小程序、公众号、聊天框等),若能将答案路径转换成文本(样例如图3所示)再展示给用户会更合理。

目前已有许多图谱生成文本的研究成果[4,5],但受中文训练语料缺乏和人工标注成本太高的限制,关于中文图谱生成文本的研究却非常少。为此,本文提出了一种无需训练数据的将图谱知识生成文本的方法。该方法由预处理、元组排序、元组集成、文本生成和文本拼接五个步骤组成,主要通过使用词性分析、元组上下文信息及语言规律来生成有逻辑、较通顺的文本。其具有以下优势:1)无需训练和测试数据,成本低;2)适用于任何三元组图谱的文本生成;3)利用关系词的词性生成文本遵循了中文语言学特性,生成的文本可靠性和质量更高。

综上,HAO交互系统不仅可以在提供的底层数据库上进行问答和文本生成操作,也可以在用户自定义数据库上进行。该系统中的文本生成方法适用于任何的三元组图谱的文本生成,不仅使用成本低,而且生成的文本连贯性较好。另外,HAO交互在保证问答性能的情况下具有响应速度快、能快速落地等特点。

References

[1] Xianpei Han, Zhichun Wang, Jiangtao Zhang, Qinghua Wen, and Yinnian Lin. 2020. Overview of the CCKS 2019 Knowledge Graph Evaluation Track: Entity, Relation, Event and QA. (2020).

[2] Xuchen Yao and Benjamin Van Durme. 2014. Information Extraction over Structured Data: Question Answering with Freebase. In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 956–966.

[3] Yan Song, Shuming Shi, Jing Li, and Haisong Zhang. 2018. Directional Skip-Gram: Explicitly Distinguishing Left and Right Context forWord Embeddings. In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers). 175–180.

[4] Diego Marcheggiani and Laura Perez-Beltrachini. 2018. Deep Graph Convolutional Encoders for Structured Data to Text Generation. In Proceedings of the 11th International Conference on Natural Language Generation. 1–9.

[5] Lei Sha, Lili Mou, Tianyu Liu, Pascal Poupart, Sujian Li, Baobao Chang, and Zhifang Sui. 2018. Order-Planning Neural Text Generation From Structured Data. In Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence, (AAAI-18), 2018. 5414–5421.

0 人点赞