浙大做了一个可用于AI领域的学术会议问答LLMs

2023-11-01 18:27:00 浏览数 (1)

深度学习自然语言处理 原创 作者:wkk

今天介绍一篇来自于浙江大学的一项研究,关于基于LLM进行人工智能领域内7个不同学术会议QA数据集的论文。

论文: Reliable Academic Conference Question Answering: A Study Based on Large Language Model 地址: https://arxiv.org/abs/2310.13028 git: https://github.com/zjukg/ConferenceQA ->辅导界的小米带你冲刺ACL2024

摘要

计算机科学的快速发展导致学术会议上发表的研究激增,促进了全球学术交流。研究人员在各个阶段不断地寻求有关这些会议的准确、最新信息。因此急需一个智能问答系统来有效地解决研究人员的疑问,并确保了解会议的最新进展。

会议信息通常发布在其官方网站上,以半结构化的方式组织,并包含大量文本。为了满足这一需求,本文为7个不同的学术会议开发了ConferenceQA数据集,其中包含人工注释。首先,采用手动和自动相结合的方法,以半结构化的JSON格式组织学术会议数据。随后,为每个会议注释了近100个问答对。每一对被分为四个不同的维度。为了确保数据的可靠性,手动注释每个答案的来源。

鉴于最近的进展,大型语言模型(LLM)在各种NLP任务中表现出了令人印象深刻的性能。它们在指令微调后的信息寻求问题回答方面表现出了令人印象深刻的能力,因此,提出了基于LLM的会议QA研究。由于LLM的幻觉和过时的知识,采用基于检索的方法来提高LLM的问答能力。提出了一种结构感知检索方法,专门设计用于在检索过程中利用固有的结构信息。Conference QA数据集的实证验证证明了该方法的有效性。

简介

由于计算机科学的研究成果在学术会议上发表,这为世界各地的研究人员通过参加会议进行面对面交流提供了巨大的机会。在这些学术会议之前期间之后,研究人员不断寻求有关这些事件各个方面的准确、最新情报。特定领域数据的极端激增,迫切需要一种复杂、精确的方法来获取这些信息,从而确保充分参与并全面了解最先进的进步。

鉴于LLMs优秀的推理能力,本文基于会议信息建立了一个QA数据集,进行了一项基于LLM的会议QA研究。

数据集的构建是基于手工和自动相结合的方法,这些问题被分为四类:原子提取、原子推理、复杂提取和复杂推理,从而能够详细探索这些问题。

本文的贡献如下:

  1. 构建了一个涵盖7个会议的广泛数据集,每个会议都配备了一组近100个QA对,用于测试。
  2. 进行了几个基础实验,证明了不同检索对象在响应不同类型的查询时的熟练程度不同。虽然这些发现是有希望的,但它们强调了进一步改进的巨大潜力。
  3. 通过提供广泛的数据集并揭示大型语言模型的有效应用,这项工作对学术会议中问答的发展做出了重大贡献。

数据集构造

会议QA数据集的构造主要包括以下三个步骤:如下图所示。

  • Semi-structure Data Transformation(半结构数据转换)
  • QA Pair Generation(QA对生成)
  • Question Classification(问题分类)

半结构数据转换

会议QA数据集中的数据来源于官方会议网站,网站中的每个页面都与其他页面存在结构关系。由于格式风格的可变性,使用手动和自动相结合的方法为每次学术会议构建了半结构化数据集。网站主要包括以下三部分:

  • 页面关系:使用每个页面的标题作为JSON数据中键或值的一部分。JSON数据是树状结构,父子节点对应于页面之间的嵌套关系,兄弟节点以及同级别的其他节点对应于页之间的并行关系。
  • 非结构化内容:对于页面上的非结构化内容,即页面中的纯文本,如果它包含副标题,将这些副标题提取为JSON数据中路径的一部分。副标题下的内容用作JSON数据中的值。为了增强粒度的多样性,随机选择纯文本进行更细粒度的分割,即将其分解为更多的副标题。
  • 结构化内容:结构化内容主要包括表格数据和页面上的一些有序/无序列表。对于表数据,使用网络爬虫来获取它,然后将其转换为放置在相应页面路径或标题下的半结构化数据。对于页面上的列表数据,将其合并到JSON数据的“list”部分。

QA对生成

对于每个会议,使用手动和自动方法的组合生成问答对。原则是确保每个问题与研究人员在现实环境中提出的问题密切相关。还使用手动注释来保证问题的质量和可靠性,以及注释答案及其来源。QA对生成包括:

  • 角色创建:利用ChatGPT生成了20个角色档案,其中包括角色的年龄、研究方向、职位、出版历史、会议出席经历等细节。这些角色可以类比为对会议感兴趣的来自不同背景的现实生活中的研究人员。
  • LLM生成的问题:使用系统提示让ChatGPT扮演这些角色,就每个会议提出五个不同粒度的问题。这些问题涵盖了每个会议中来自不同背景的人物感兴趣或不确定的领域。
  • 手动注释:采用手工注释的方式对问题进行了全面的回顾。过滤掉重复或过于困难的问题,同时添加一些内容更广泛、更多样的问题。随后,根据JSON数据手动注释答案。为了确保数据集的可靠性,为问答对注释每个答案的来源,由答案在学术会议JSON数据中的位置表示。

问题分类

为了评估模型回答不同难度问题的能力,设计了一个对问答对进行分类的方案。这种分类主要取决于两个不同的方面:生成答案的过程和生成正确答案的条目数量。问题分类主要从两个维度展开。

  • 提取或推理:这个维度主要考虑生成答案的过程。如果答案可以直接从数据集中提取,即答案是数据集中的一段文本,则将其归类为提取。如果给出答案需要模型首先推理,然后生成,即相应的答案不是数据集中的一段文本,则将其归类为推理。
  • 原子或复合体:这个维度主要考虑生成正确答案所涉及的条目数量。如果生成答案只需要来自单个条目的信息,即JSON数据中从最顶层到最底层的序列。它被归类为原子。如果生成答案需要来自多个条目的信息,则将其归类为复杂。

基于LLM的方法

随着LLM的出现,领域领域中的问答问题得到了广泛的研究。目前的主流方法是基于检索,利用读者的查询

0 人点赞