达观数据联合同济大学发布新冠肺炎知识图谱数据集及智能问答系统

达观数据与同济大学联合共建的“知识图谱与语义计算联合实验室”，近期发布了围绕新冠肺炎的多跳问答数据集和智能问答系统，该数据集基于COVID-19的七个方面（即百科、防控、物资、诊疗、健康、流行病、英雄）进行数据集梳理并进一步生成1跳（1-hop）、2跳（2-hop）、3跳（3-hop）的问答数据集，智能问答的主题涉及病理、症状、药物等相关的问题。其中论文成果《COKG-QA: Multi-hop Question Answering over COVID-19 Knowledge Graphs》发表于期刊《Data Intelligence》。

图1 《Data Intelligence》及发表论文的部分技术展示

主要研究贡献如下：

很少存在针对COVID-19管理的全面的KGQA数据集，尤其是缺乏针对多跳问题的数据集。受益于OpenKG-COVID19，我们推导出了一个大型多跳中文COVID-19 KGQA数据集COKG-DATA。它包含丰富的知识，为构建优质的问答系统提供了重要基础。
引入COKG-QA来证明在多跳KGQA任务中嵌入投影机制和模式信息的重要性。更准确地说，通过投影方法将来自不同空间的实体、模式和问题的嵌入转移到一个共同的空间中，以对齐重要特征。此外，实体嵌入与其类型嵌入相结合，以预测指定类型的答案。通过实验证明了COKG-QA是非常有效的，并且对于进一步推广到新领域知识也是值得借鉴的。
为了满足人们对COVID-19咨询服务的需求，基于COKG-QA开发了一个用户友好的交互式应用系统。该系统不仅提供准确和可解释的问题答案，而且易于使用，并具有智能提示和建议功能。

新冠肺炎多跳问答数据集COKG-DATA

我们根据OpenKG推出的OpenKG-COVID19的七个子KG（即百科、防控、物资、诊疗、流行病、英雄）来组织COKG-DATA，人们每天更容易问到这些子KG中的信息。COKG-DATA是一个新的具有挑战性的问答基准，包含有关疾病、症状、药物等相关的单跳问题和多跳问题。基于庞大而多样的COKG-DATA数据集，结合多跳KGQA技术，可以满足人们在大流行期间的复杂查询需求。我们花费大量时间基于OpenKG-COVID19清理数据并收集多跳问题。

01七大子KG

百科KG，让我们对SARS-CoV-2和COVID-19有个大致了解，以及相关的病毒和疾病信息。
防控KG，为各地个人、团体提供政府发布的预防指南。
物资KG，围绕疫情期间的物资供应情况展开，涵盖日常防护用品、医疗器械、药品等。
诊疗KG和健康KG是互补的，以利用关于各种疾病、药物、症状、检查方法和治疗医院的COVID-19相关知识。
流行病KG，运用流行病学的一般技术，研究疾病的分布及影响因素，探究疾病的成因，阐明流行病的规律，以有效地控制和根除疾病。
英雄KG，以新冠病毒专家为核心延展至履历、成果、事件、战役等各类概念。

02数据清洗

为了确保QA数据集的质量，我们清理了OpenKG-COVID19中的一些异常情况的数据，并删除了对QA来说不实用的三元组，包括一些三元组包含空字符串、标点实体或无用数字；一些三元组组成的比较奇怪的问题，例如，⟨新华医院的医生，在新华医院工作⟩；一些三元组中的头实体与尾实体相同的问题，例如具有“别名”关系的三元组。此外，OpenKG-COVID19中还存在包括对称性和反转在内的关系模式。我们为OpenKG-COVID19的这些关系模式扩展了三元组。经过数据清洗和关系扩展后，知识图谱数据集包含112246个实体、209个关系和787056个三元组。

03数据构造

我们利用OpenKG-COVID19的选定子图中的事实三元组作为1-hop数据。此外，我们手动为2-hop问题设计了47个关系，为3-hop问题设计了23个关系，其中组合的关系必须合理自然。具体来说，在2-hop关系中，前关系的范围必须与后关系的域相同。例如，“selected drug”关系的范围是“drug”，必须与2-hop关系“Selected drug Usage and dosage”中的“usage and dosage”域一致。相同的规则适用于3-hop关系收集过程。与多跳数据集MetaQA类似，我们使用Helsinki-NLP Opus-MT项目中的神经翻译模型以引入具有相同含义的更多样化和自然的陈述。利用Opus-mt-zh-en模型将句子从中文翻译成英文，然后使用opus-mt-zh-en将句子翻译回中文。此外，为了从顶层创建一个大规模的统一知识库，完成了实体对齐和关系对齐，以消除不一致问题。

04校验数据

为了确保COKG-DATA数据及中的问题相对时自然且有意义，我们招募了四名志愿者来检查数据集的质量，他们的研究领域均为知识图谱和问答方向。经过清理后的OpenKG-COVID19数据，按照关系对问题进行排序，然后成比例的随机抽取问题样本。这四名志愿者被要求用三个选项对抽样问题进行评分：1表示奇怪；2表示自然；3表示有意义。我们通过这个人工评分过程，删除或修改了奇怪的问答对，对COKG-DATA进行了四次优化。最后一轮的采样数为4000，志愿者的平均得分为2.8，证明了COKG-DATA是高质量的。

05数据集统计

COKG-DATA每个跳数问题的最终统计结果如表1所示。COKG-DATA将会保持与OpenKG-COVID19的同步更新，为用户提供更充分的知识。

表1 COKG-DATA统计数据

新冠肺炎多跳问答技术COKG-QA

IRQA& KGQA

在COVID-19相关信息的获取上，基于COVID-19 知识的问答系统作为一种便捷的交互方式受到越来越多的人的欢迎。COVID-19 QA现有两种范式：信息检索问答（Information Retrieval Question Answering，IRQA)和知识图谱问答(Knowledge Graph Question Answering，KGQA)。 1. COVID-19 IRQA

COVID-19 IRQA 系统基于文本问答对，通过计算数据集中提出的问题和问题/答案之间的相似性来获得答案，如WULAI-QA、CAiRE-COVID、COVIDASK。IRQA系统可以自然地回答人们经常提出的简单问题。WULAI-QA（Web Understanding and Learning with AI，WULAI）是一个动态的基于文档的问答系统，图2是其整体系统架构图。

图2 WULAI-QA整体架构图

WULAI-QA主要有四部分构成：

特征工程（Feature Engineering）部分可以使用自定义过滤器和多种强大的特征来快速过滤不相关的文档；
检索器（Retriever）部分可以分别对问题
数据库 sql 知识图谱数据挖掘系统架构

0 人点赞