大模型幻觉！人大 & IAAR & 新华社 | 提出幻觉评测基准UHGEval，全面支持中文！

引言

大模型幻觉问题是指模型生成的文本内容不基于任何事实数据，直白一点就是胡说八道。该问题是大模型应用落地的主要障碍之一，尤其是对文本内容的及时性、准确性和逻辑一致性标准要求较高的场景，例如在医学、法律、金融和新闻等。

为了有效控制幻觉在语言生成中的问题，除了设计新的训练方法和模型架构之外，制定一个全面、统一的基准来评测幻觉现象显得至关重要。为此，中国人民大学、IAAR等提出了一种新的幻觉评测基准UHGEval，除此之外，还提出了一个安全、可扩展和用户友好的评测框架，以促进全面评测。

Paper：https://arxiv.org/abs/2311.15296

Code：https://github.com/IAAR-Shanghai/UHGEval

作者信息：中国人民大学，上海算法创新研究院，新华社媒体融合生产技术与系统国家重点实验室

背景介绍

为了有效控制幻觉在语言生成中的问题，除了设计新的训练方法和模型架构之外，制定一个全面、统一的基准来评测幻觉现象显得至关重要。缺乏这样的基准将使得该领域的研究工作难以进行横向对比，也阻碍了其良性发展。

目前已经涌现出一些比较知名的用于评测幻觉的基准，包括TruthfulQA、HADES、HalluQA、ChineseFactEval等。然而，这些现有的基准大多存在一定的问题。

目前普遍采用的是「约束式生成范式」，以定向生成可预测类型的幻觉。然而，这种生成方法与现实世界场景存在不一致，因为在真实环境中，幻觉可能会在不受限制、自发生成的内容中显现。

现有的评测基准往往在标注数据时「仅限于句子级别的幻觉，而在关键词级别的标注粒度较少」。然而，从不同粒度上对大语言模型的分辨能力进行评测不仅更具挑战性，而且可以为解决幻觉问题提供新的启示。

大多数评测基准主要集中在英语幻觉上，「而中文幻觉评测数据集较少」。据文献所述，仅有两项中文领域的相关工作，分别是复旦大学的HalluQA和上海交通大学的ChineseFactEval，其数据规模分别仅有450条和125条，存在数据量相对较小的问题。

UHGEVAL基准数据集

为了应对上述挑战，本文作者提出了一种新的幻觉评测基准UHGEval，一个全面的中文专业生成领域的幻觉评测基准。该基准包括三个部分：

一个基于新闻内容生成的具有5000多个数据项的幻觉数据集；
一个数据安全，扩展便捷，实验方便的评测框架；
一份在11个当下流行的大语言模型上的实验报告。

关于UHGEVAL基准数据集的制作主要包括数据收集预处理、无约束幻觉生成、幻觉排名、自动标注和人工复检四个步骤，具体如下图所示：

2.1 数据收集和预处理

该阶段使用涵盖2015年1月至2017年1月数万条来自中文权威新闻网站的原始新闻作为数据集来源，并将其划分为开头部分，续文部分以及参考信息。开头部分被用作待续写的文本，续文部分是续写的正样例，参考信息被用来视作后续标注和评测的参考。

该阶段同时还包括新闻类别的细分方案和数据筛选过程。数据集中的新闻示例分为四大类型：文档密集型、数字密集型、知识密集型和一般新闻。数据集基本概况如下图所示：

2.2 无约束幻觉生成

UHGEval在生成内容的方法上与其他同类工作有所不同。具体而言，在生成内容时，模型通过减少提示词的指导，使其不再受到具体指令的约束，而是直接将待续写的开头部分提供给大语言模型，以获取最终的候选续写。因此，这两个方面共同构成了模型和提示的无约束候选幻觉生成的框架。

2.3 幻觉排名

对于生成的5个候选幻觉文本，UHGEval从「文本流畅性」和「幻觉发生可能性」两个维度进行排名。UHGEval使用自研的奖励模型（reward model）来评价续写的流畅性，使用「提出的kwPrec指标」来评价续写发生幻觉的可能性。通过排名，最终会筛选出一个较为流畅，同时较为可能发生幻觉的目标候选续写文本。

「关于kwPrec指标」。这种方法最初使用LLM从续写文本中提取关键字，并确定这些关键字在引用信息中是否匹配。然后计算所有匹配项与总关键字的比率。由于LLM通常更有效地提取适当的关键词，因此kwPrec更关注事实相关性，而不是表达相关性。

2.4 自动标注和人工复检

UHGEval提出了一种基于关键词的标注方案，旨在筛选出真正存在幻觉内容的文本。该方案使用了超过上万条候选续写文本，并通过GPT-4模型进行关键词粒度的标注，这些关键词的标注涉及幻觉的存在与否，以及存在幻觉的原因。

随后，由人工对GPT-4标注的准确性进行判断，并仅保留那些被人工认定为GPT-4标注准确且包含幻觉关键词的续写文本。这一流程设计在保障标注准确性的同时，也在成本控制方面取得了平衡，最终形成了一个可靠的数据集。

实验结果

3.1 实验模型

研究一共使用了11个大模型。其中，3个来自GPT系列的模型，GPT3.5-Turbo，GPT4-0613和GPT4-1106；以及8个中文大语言模型，ChatGLM2-6B，Xinyu-7B，Xinyu2-70B，InternLM-20B，Baichuan2-13B，Baichuan2-53B，Qwen14B，Aquila2-34B。

3.2 实验方法

文章对评测首先进行了三个层级的解构，认为评测包括形式，指标和粒度。形式是指模型如何与数据集交互，包括人类评测、判别式评测（Discriminative Evaluation）、选择式评测（Selective Evaluation）和生成式评测（Generative Evaluation）；指标是具体计算量化表现的方法，如准确率，ROUGE，kwPrec，BERTScore等；粒度指幻觉标注的粒度，如句子粒度，关键词粒度等。

「判别式评测」 该评测使LLM能够以“是”或“否”的二进制答案进行响应。具体来说，这种评测模式包括在仔细审查的LLM中呈现一个初始文本，然后是一个可能包括幻觉也可能不包括幻觉的延续，LLM的任务是对幻觉的存在做出判决。

「选择式评测」 与判别式评测类似，选择性评测允许LLM通过在选项A或B之间进行选择。具体来说，在选择性评测中，评测中的LLM有一个初始文本，后面是两个续写文本：一个包含幻觉，另一个不包含幻觉。LLM的目的是确定两者中哪一个产生了幻觉。

「生成式评测」 该种评测方式直接评测LLM生成的文本中是否存在幻觉。具体来说，为评测中的LLM提供初始文本，然后负责生成续写文本。随后，利用各种基于参考的技术来确定续写文本是否包括幻觉。生成性评测仍然是自然语言生成（NLG）任务中的主要策略。

3.3 实验框架

为了适应不同形式的评测方法，本文作者开发了一个数据安全、易于扩展和易于使用的评测框架，该框架包括依赖层，评测器层，核心层和界面层四层，如下图所示。

「依赖层」描述了评测框架所需的基础模块，包括数据集、LLM中心和各种指标。值得注意的是，所有底层模块都是可扩展的；数据集可以被自定义版本、来自API或平台（如Hugging Face 3）的LLM以及单独定制的指标所取代。
「评测器层」以抽象类Evaluator及其各种实现为中心。在这个层中，实现了三种不同的类型：GenerativeEvaluator，DiscriminativeEvaluator和SelectiveEvaluator。用户也可以根据抽象类的接口规范设计自定义求值器，只需要三个函数重载。
「核心层」包括两个主要模块：experiment.py和analyst.py。前一个模块促进涉及多个LLM，评测人员和过程的实验，而后一个模块的任务是对实验结果进行统计分析。
「界面层」构成最后一层，协助用户与UHGEval的交互。提供了一个简洁的20行演示，以加快用户启动，辅以run.py能够通过命令行启动实验。