关注我们,一起学习
题目:UHGEval: Benchmarking the Hallucination of Chinese Large Language Models via Unconstrained Generation 地址:https://arxiv.org/abs/2311.15296 代码:https://github.com/IAAR-Shanghai/UHGEval 学校,公司:中国人民大学,上海算法创新研究院,新华社媒体融合生产技术与系统国家重点实验室
大规模语言模型的蓬勃发展带来了许多潜在的机遇,然而,幻觉问题却成为实际应用落地前需要克服的重要障碍。幻觉表现为模型生成的内容与用户输入、模型输出上下文或实际事实信息不一致的现象。在对事实准确性要求较高的专业领域,包括医学、法律、金融和新闻等,幻觉问题尤为显著。例如,在新闻生成领域,事实的准确性、信息的时效性以及内容的逻辑性是至关重要的。一个错误的体育比分、一个错误的引述或者一个错误的时间都可能导致信息的不准确,进而影响到读者对新闻的信任度。
为了有效控制幻觉,提出可信的模型固然重要,但是在那之前提出一个统一的,严格的基准同样有深远的意义。缺少这样的基准,该领域的工作则难以横向对比,良性发展。目前已经有一些比较知名的评测幻觉的基准,比如,TruthfulQA,HADES,HalluQA,ChineseFactEval等。然而这些基准大多存在这样一些问题:
- 大多采用约束式生成范式,会定向生成可预测类型的幻觉,这和现实世界中大模型自由无约束生成的幻觉固然是有差异的,毕竟大模型在生成幻觉前,并不必告诉人们它会生成什么类型的幻觉,或在什么位置生成幻觉。因此,定向生成的有约束的幻觉会导致评测结果与现实世界不符。
- 现有基准往往在标注数据时,只标注到句子级别的幻觉,其粒度少有在关键词级别的。然而从不同粒度上考验大模型的分辨能力不仅更有挑战,也能为解决幻觉问题提供启发。
- 此外,大语言模型幻觉的基准往往关注英语世界的,缺少中文幻觉评测数据集。据论文所述,唯二的两项中文领域的工作,复旦大学的HalluQA和上海交通大学的ChineseFactEval才分别只有450条,和125条数据项,数据量过小。
基于以上问题,中国人民大学,上海算法创新研究院,与新华社媒体融合生产技术与系统国家重点实验室联合推出了UHGEval,一个全面的中文专业生成领域的幻觉评测基准。该基准包括一个具有5000 数据项基于新闻内容生成的幻觉数据集;一个数据安全,扩展便捷,实验方便的评测框架,以及一份在11个当下流行的大语言模型上的实验报告。
image.png
基准数据集
图 1 UHGEval基准的制作流程
UHGEval数据集的生成主要由四个步骤构成(如图1的步骤1到4):
数据收集和预处理阶段。该阶段使用数万条来自中文权威新闻网站的原始新闻作为数据集来源,并将其分为开头部分,续文部分以及参考信息。开头部分被用作待续写的文本,续文部分是续写的正样例,参考信息被用来视作后续标注和评估的参考。该阶段同时还包括新闻类别的细分方案和数据筛选过程。
无约束幻觉生成阶段。生成内容与其他同类工作不同,UHGEval一方面使用5个LLM同时生成多个候选幻觉续写,以提高幻觉的多样性,避免单模型造成的评测偏见;另一方面,在具体生成文本时,不约束生成内容一定包含幻觉,也不指定生成幻觉类型,而让模型自由生成,在后续标注阶段再确定是否真正有幻觉。具体来说,生成内容时,模型提示词减少指令以至于不适用指令,而直接将待续写的开头部分输给大模型,以得到最后的候选续写。如此一来,这两方面共同构成了模型和提示无约束的候选幻觉生成。
幻觉排名阶段。对于前面生成的5个候选幻觉文本,UHGEval从文本流畅性和幻觉发生可能性两个维度进行排名。之所以要进行排名是因为目标候选幻觉文本应当满足”看起来很像真的(流畅性高)而实则存在幻觉(幻觉发生可能性高)“的特征。UHGEval使用自研的奖励模型(reward model)来评价续写的流畅性,使用提出的kwPrec指标来评价续写发生幻觉的可能性。通过排名,最终会筛选出一个较为流畅,同时较为可能发生幻觉的目标候选续写文本。
自动标注和人工复检阶段。有了高达上万条的候选续写文本,为了筛选出真正存在幻觉的文本,UHGEval提出了基于关键词的标注方案。在该阶段由GPT4进行关键词粒度的标注(关键词是否存在幻觉,若存在原因是什么),由人工判断GPT4标注的是否准确,最终只保留人工认为GPT4标注准确且存在幻觉关键词的续写文本,以构成最终数据集。这样的标注方案实现了成本和标注准确性上的平衡。
实验
实验模型。使用了3个来自GPT系列的模型,GPT3.5-Turbo,GPT4-0613和GPT4-1106;以及8个中文大语言模型,ChatGLM2-6B,Xinyu-7B,Xinyu2-70B,InternLM-20B,Baichuan2-13B,Baichuan2-53B,Qwen14B,Aquila2-34B。
实验方法。这份工作对评测首先进行了三个层级的解构,认为评测包括形式,指标和粒度。形式是指模型如何与数据集交互,包括人类评测、判别式评测、选择式评测和生成式评测;指标是具体计算量化表现的方法,如准确率,ROUGE,kwPrec,BERTScore等;粒度指幻觉标注的粒度,如句子粒度,关键词粒度等。
实验框架。为了实现多种形式,多种模型下,大规模的评测,UHGEval提出了一个完整的实验数据安全,便于拓展,且易于使用的评测框架。框架包括依赖层,评测器层,核心层和界面层四层,如图7所示。
图7 评测框架实验设置。文章从提示工程,样例平衡,超参设置和评测器配置四个角度介绍了实验的准备。提示工程采用“意图 指令 3-shot (可解释) 提示”框架;样例平衡是指在进行判别式和选择式测评时保证待评测大模型能够看到同样数量的正负样例,以保证实验结果的可信性;超参设置上遵循了“输出结果的确定性,同时保留轻微的随机性,并确保不同大模型的参数一致”的原则。评测器配置主要从具体三个评测器出发详细介绍了评测方法,指标等。
结果分析。文章从三个不同的评测器,对11个大模型展开了详尽的实验分析,如表4和表5所示。同时也分析了不同新闻类型导致幻觉的差异性,如表6所示。文中提到的观点例如,“领域模型能够在特定场景胜过通用模型”,“GPT系列模型的确存在跷跷板效应”,“基于关键词的幻觉检测比基于句子的幻觉检测更可靠”等。此外,文章还讨论了各种评测器的难易度,优缺点,适用场景等。
相关工作
作者还从大模型,幻觉,以及评测基准三个角度对相关工作进行了详细的评述。在大模型方面,作者从权重的开放性和模型的训练深度两个维度回顾了目前流行的模型。在大模型幻觉方面,作者回顾了幻觉的定义,表现以及成因。最后,在幻觉评测基准方面,作者全面地回顾了现有的幻觉评测基准,如表7所示。