大模型幻觉!人大 & IAAR & 新华社 | 提出幻觉评测基准UHGEval,全面支持中文!

2023-12-04 19:17:22 浏览数 (1)

引言

大模型幻觉问题是指模型生成的文本内容不基于任何事实数据,直白一点就是胡说八道。该问题是大模型应用落地的主要障碍之一,尤其是对文本内容的及时性、准确性和逻辑一致性标准要求较高的场景,例如在医学、法律、金融和新闻等。

为了有效控制幻觉在语言生成中的问题,除了设计新的训练方法和模型架构之外,制定一个全面、统一的基准来评测幻觉现象显得至关重要。为此,中国人民大学、IAAR等提出了一种新的幻觉评测基准UHGEval,除此之外,还提出了一个安全、可扩展和用户友好的评测框架,以促进全面评测。

Paper:https://arxiv.org/abs/2311.15296

Code:https://github.com/IAAR-Shanghai/UHGEval

作者信息:中国人民大学,上海算法创新研究院,新华社媒体融合生产技术与系统国家重点实验室

背景介绍

为了有效控制幻觉在语言生成中的问题,除了设计新的训练方法和模型架构之外,制定一个全面、统一的基准来评测幻觉现象显得至关重要。缺乏这样的基准将使得该领域的研究工作难以进行横向对比,也阻碍了其良性发展。

目前已经涌现出一些比较知名的用于评测幻觉的基准,包括TruthfulQA、HADES、HalluQA、ChineseFactEval等。然而,这些现有的基准大多存在一定的问题。

目前普遍采用的是「约束式生成范式」,以定向生成可预测类型的幻觉。然而,这种生成方法与现实世界场景存在不一致,因为在真实环境中,幻觉可能会在不受限制、自发生成的内容中显现。

现有的评测基准往往在标注数据时「仅限于句子级别的幻觉,而在关键词级别的标注粒度较少」。然而,从不同粒度上对大语言模型的分辨能力进行评测不仅更具挑战性,而且可以为解决幻觉问题提供新的启示。

大多数评测基准主要集中在英语幻觉上,「而中文幻觉评测数据集较少」。据文献所述,仅有两项中文领域的相关工作,分别是复旦大学的HalluQA和上海交通大学的ChineseFactEval,其数据规模分别仅有450条和125条,存在数据量相对较小的问题。

UHGEVAL基准数据集

为了应对上述挑战,本文作者提出了一种新的幻觉评测基准UHGEval,一个全面的中文专业生成领域的幻觉评测基准。该基准包括三个部分:

  • 一个基于新闻内容生成的具有5000多个数据项的幻觉数据集;
  • 一个数据安全,扩展便捷,实验方便的评测框架;
  • 一份在11个当下流行的大语言模型上的实验报告。

关于UHGEVAL基准数据集的制作主要包括数据收集预处理、无约束幻觉生成、幻觉排名、自动标注和人工复检四个步骤,具体如下图所示:

2.1 数据收集和预处理

该阶段使用涵盖2015年1月至2017年1月数万条来自中文权威新闻网站的原始新闻作为数据集来源,并将其划分为开头部分,续文部分以及参考信息。开头部分被用作待续写的文本,续文部分是续写的正样例,参考信息被用来视作后续标注和评测的参考。

该阶段同时还包括新闻类别的细分方案和数据筛选过程。数据集中的新闻示例分为四大类型:文档密集型、数字密集型、知识密集型和一般新闻。数据集基本概况如下图所示:

2.2 无约束幻觉生成

UHGEval在生成内容的方法上与其他同类工作有所不同。具体而言,在生成内容时,模型通过减少提示词的指导,使其不再受到具体指令的约束,而是直接将待续写的开头部分提供给大语言模型,以获取最终的候选续写。因此,这两个方面共同构成了模型和提示的无约束候选幻觉生成的框架。

2.3 幻觉排名

对于生成的5个候选幻觉文本,UHGEval从「文本流畅性」「幻觉发生可能性」两个维度进行排名。UHGEval使用自研的奖励模型(reward model)来评价续写的流畅性,使用「提出的kwPrec指标」来评价续写发生幻觉的可能性。通过排名,最终会筛选出一个较为流畅,同时较为可能发生幻觉的目标候选续写文本。

「关于kwPrec指标」。这种方法最初使用LLM从续写文本中提取关键字,并确定这些关键字在引用信息中是否匹配。然后计算所有匹配项与总关键字的比率。由于LLM通常更有效地提取适当的关键词,因此kwPrec更关注事实相关性,而不是表达相关性。

2.4 自动标注和人工复检

UHGEval提出了一种基于关键词的标注方案,旨在筛选出真正存在幻觉内容的文本。该方案使用了超过上万条候选续写文本,并通过GPT-4模型进行关键词粒度的标注,这些关键词的标注涉及幻觉的存在与否,以及存在幻觉的原因。

随后,由人工对GPT-4标注的准确性进行判断,并仅保留那些被人工认定为GPT-4标注准确且包含幻觉关键词的续写文本。这一流程设计在保障标注准确性的同时,也在成本控制方面取得了平衡,最终形成了一个可靠的数据集。

实验结果

3.1 实验模型

研究一共使用了11个大模型。其中,3个来自GPT系列的模型,GPT3.5-Turbo,GPT4-0613和GPT4-1106;以及8个中文大语言模型,ChatGLM2-6B,Xinyu-7B,Xinyu2-70B,InternLM-20B,Baichuan2-13B,Baichuan2-53B,Qwen14B,Aquila2-34B。

3.2 实验方法

文章对评测首先进行了三个层级的解构,认为评测包括形式,指标和粒度。形式是指模型如何与数据集交互,包括人类评测、判别式评测(Discriminative Evaluation)、选择式评测(Selective Evaluation)和生成式评测(Generative Evaluation);指标是具体计算量化表现的方法,如准确率,ROUGE,kwPrec,BERTScore等;粒度指幻觉标注的粒度,如句子粒度,关键词粒度等。

「判别式评测」 该评测使LLM能够以“是”或“否”的二进制答案进行响应。具体来说,这种评测模式包括在仔细审查的LLM中呈现一个初始文本,然后是一个可能包括幻觉也可能不包括幻觉的延续,LLM的任务是对幻觉的存在做出判决。

「选择式评测」 与判别式评测类似,选择性评测允许LLM通过在选项A或B之间进行选择。具体来说,在选择性评测中,评测中的LLM有一个初始文本,后面是两个续写文本:一个包含幻觉,另一个不包含幻觉。LLM的目的是确定两者中哪一个产生了幻觉。

「生成式评测」 该种评测方式直接评测LLM生成的文本中是否存在幻觉。具体来说,为评测中的LLM提供初始文本,然后负责生成续写文本。随后,利用各种基于参考的技术来确定续写文本是否包括幻觉。生成性评测仍然是自然语言生成(NLG)任务中的主要策略。

3.3 实验框架

为了适应不同形式的评测方法,本文作者开发了一个数据安全、易于扩展和易于使用的评测框架,该框架包括依赖层,评测器层,核心层和界面层四层,如下图所示。

  1. 「依赖层」描述了评测框架所需的基础模块,包括数据集、LLM中心和各种指标。值得注意的是,所有底层模块都是可扩展的;数据集可以被自定义版本、来自API或平台(如Hugging Face 3)的LLM以及单独定制的指标所取代。
  2. 「评测器层」以抽象类Evaluator及其各种实现为中心。在这个层中,实现了三种不同的类型:GenerativeEvaluator,DiscriminativeEvaluator和SelectiveEvaluator。用户也可以根据抽象类的接口规范设计自定义求值器,只需要三个函数重载。
  3. 「核心层」包括两个主要模块:experiment.py和analyst.py。前一个模块促进涉及多个LLM,评测人员和过程的实验,而后一个模块的任务是对实验结果进行统计分析。
  4. 「界面层」构成最后一层,协助用户与UHGEval的交互。提供了一个简洁的20行演示,以加快用户启动,辅以run.py能够通过命令行启动实验。

3.4 结果分析

文章使用三个不同的评测器,对11个大模型展开了详尽的实验分析,如下表所示。

同时也分析了不同新闻类型导致幻觉的差异性,如表6所示。

总结

文章介绍了一个使用无约束幻觉生成的新的基准数据集,包括一个专门为幻觉新闻连续性策划的数据集,该数据集包括5000多个在关键字级别注释的实例。此外,文章提出了一个安全、可扩展和用户友好的评测框架,以促进全面评测。通过对11个知名的LLM的进行实验,作者发现了一系列富有启发性的发现,详情可见论文原文。

推荐阅读

[1]2023年10月 爆款论文总结,共计12篇

[2]微软提出代码生成模型,参数仅有75M!

[2]当大模型遇到新知识,还能给出正确答案吗?

[3]Meta提出BSM,Llama-chat媲美GPT-4!

[4]EMNLP2023 | 分享10篇值得阅读的paper

0 人点赞