EMNLP2023 && 北大 | 当大模型（LLMs）遇到新知识，还能给出正确答案吗？

引言

在这个不断变化的世界，当大型语言模型（LLM）遇到新知识还能给出正确答案吗？如何评估LLM应对新知识的能力呢？

为此，本文作者提出了KnowGen方法，它通过改变现有实体属性和关系来生成新知识，从而产生与现实世界实体不同的人造实体。基于KnowGen，作者引入了ALCUNA基准来评估LLM在知识理解(KU)、区分(KD)和关联(KA)方面的能力。实验结果发现，当面对新知识时，Alpaca、Vicuna、ChatGLM等主流大模型的表现不尽人意。

Paper：https://arxiv.org/pdf/2310.14820.pdf

Code：https://github.com/Arvid-pku/ALCUNA

背景介绍

大型模语言模型（LLM）在各个领域的各种任务上都表现的相当出色，以至于许多传统基准已不足以衡量 LLM 的能力。因此，一些新的基准被提出来评估模型解决高考、法学院入学考试、数学竞赛等更复杂任务的能力。

然而，目前还没有一个基准来评估大型模型面对新知识的能力，这是非常重要且具有挑战性的。为什么这个评估很重要？

首先，我们身处一个不断变化的世界，模型在实践中经常遇到新知识，我们希望大模型当遇到新知识时也能够从容应对。其次，在LLM接受大量数据训练的情况下，训练数据和测试数据之间存在重叠可能会导致模型的记忆能力被错误地估计为泛化能力。

虽然评估大型语言模型应对新知识的能力很重要，但是构建评估基准存在一定的挑战性。其「主要原因是很难确保基准中包含的知识对于LLM来说是新的，因为某些模型的训练数据很大并且是非公开的」。此外，也很难确保用于基准测试的知识的时效性，因为许多LLM可能很快就会在训练中包含来自基准测试的数据。

综上所述，新知识基准需要表现出三个基本特征：包含足够多的新知识以进行充分的评估（充分）、知识对于所有模型都是新的（模型无关）以及知识可以长期保持新颖性（持久）。

对于上述挑战主要有以下两种解决方案：

「始终使用最新的数据」：例如使用当天的新闻知识，但是该方法是一个劳动密集型任务，并且对所提议数据的生命周期也没有明确的定义。

「保持基准闭源」：该方式需要权威委员会管理数据，用户在评估时调用 API，来防止数据泄露，但是该方法需要社区协调。

为了更好的应该对该挑战，本文作者提出了KnowGen方法生成新知识；根据生成的新知识，作者构建ALCUNA基准来评估LLM的应对新知识的能力。

KnowGen介绍

KnowGen是一种用于评估大型语言模型（LLMs）处理新知识能力的方法。它通过对已有实体知识的属性和关系进行修改，从而生成新的人工实体。

KnowGen的设计灵感来自于人类学习新知识的过程，即通过对已有知识的修改和扩展来学习新知识。

KnowGen的核心是将实体知识进行形式表示，包括实体类、实体属性和实体关系。这种形式化的表示方式可以帮助我们更好地理解实体知识，并为构建新的实体知识提供基础。

KnowGen的另一个重要组成部分是新实体的构建。它通过对已有实体的属性和关系进行修改，生成新的人工实体。这些人工实体与真实世界实体不同，但是它们的属性和关系与真实世界实体相似。这些人工实体可以用于评估LLMs的能力，例如对新知识的理解、区分和关联能力。为了进行更详细的评估，作者设计了不同类别的问题来评估每种能力，如下图所示，

最后，KnowGen使用问答作为评估任务，即给定一个问题和一个实体，LLMs需要回答与该实体相关的问题。这种评估方式可以帮助我们更好地评估LLMs的能力，并为LLMs的应用提供更多的可能性。

ALCUNA基准

ALCUNA基准数据集是一个用于评估大型语言模型（LLMs）处理新知识能力的基准测试，它是通过KnowGen方法生成的一组人工实体，这些实体与真实世界实体不同，但是它们的属性和关系与真实世界实体相似。

该数据集包含84351个问题和3554个人工实体。每个人工实体包含11.75个属性三元组和25.39个关联实体。其中的属性、关系是通过对已有实体的属性和关系进行修改和扩展生成的。

为了保证人工实体的质量，数据集中的父实体必须至少包含三个属性。这样可以确保人工实体包含丰富和独特的属性和关系。关于数据集中问题的组织方式。数据集是按问题组织的，对于每个问题，数据集收集相应的属性三元组作为证据，以及相关人工实体的信息作为新知识。

实验结果

在vanilla、CoT、Zero-Shot 、Few-Shot设置下，作者利用ALCUNA基准评估分析了几个主流的大模型（ChatGPT、Alpaca-7B、Vicuna-13B 和 ChatGLM-6B）对新知识的理解(KU)、区分(KD)和关联(KA)能力，结果显示无论是 ChatGPT 还是其他模型在面对新知识时都表现的不尽人意，虽然说ChatGPT相比会稍微好一些。

下表展示了实体相似度对模型对实体知识的理解的影响，可以发现出了ChatGPT所有其他模型都受到实体相似性的影响。新实体与现有实体越相似，就越难区分它们，这说明了LLM的缺陷。

EMNLP2023 && 北大 | 当大模型（LLMs）遇到新知识，还能给出正确答案吗？

引言

背景介绍

KnowGen介绍

ALCUNA基准

实验结果

推荐阅读