ACL2023 | Google 提出一致性自适应提示(COSP),零样本推理提升15%!

2023-11-07 11:03:07 浏览数 (1)

点击上方“AINLPer“,设为星标

更多干货,第一时间送达

引言

大型语言模型(LLM)在少样本、零样本情况中,都表现出了强大的性能。尽管如此,在实际应用场景中都回存在一定的限制。在少样本情况下,大模型对示例的选择比较敏感,考虑到下游任务的多样性,需要为每个任务制作标签,这会需要大量的人力。

在零样本情况下,虽然不需要手工制作示例,但是由于缺乏对大模型的引导,其性能则会受到限制。为此,今天给大家分享的这篇文章基于该问题,提出了一种的新型大模型提示方法:一致性的自适应提示(COSP),它不需要手工制作的响应示例,也不需要真实的标签,使模型性能提升了15%

Paper:https://aclanthology.org/2023.findings-acl.216.pdf

背景介绍

近年来,随着深度学习技术的发展,大型语言模型(LLMs)在NLP任务中表现出了出色的性能,例如文本分类、机器翻译、问答系统等。LLMs可以通过大量的训练数据学习到语言的规律和模式,从而在各种NLP任务中取得了很好的表现。

然而,LLMs在少样本学习和零样本学习任务中的性能仍然受到很大的限制。在少样本学习任务中,由于缺乏足够的训练数据,LLMs很难学习到泛化性强的模型,这导致了LLMs在少样本学习任务中的性能较差。在零样本学习任务中,LLMs需要在没有任何标签信息的情况下进行推理,这对于当前的LLMs来说是一个非常具有挑战性的任务。

对于零样本学习,在过去的研究中已经提出了一些方法来解决零样本学习的问题。其中一种方法是基于元学习的方法,通过在训练过程中模拟零样本学习的场景,使模型能够更好地适应新任务。另一种方法是基于提示的方法,通过给模型提供一些提示信息来辅助推理和学习过程。

然而,这些方法仍然存在一些限制。元学习方法需要大量的标注数据和计算资源,而基于提示的方法需要手动设计提示,这在实际应用中可能不够灵活和高效,并且一旦设计的提示出错,效果要比零样本效果还差。如下图所示:

因此,为了提高LLMs在少样本学习和零样本学习任务中的性能,本文提出了一种新的自适应提示设计方法:一致性自适应提示(COSP)。COSP方法可以在不需要手工标注和真实标签的情况下,通过在LLMs的零样本输出中选择和构建一组示例,从而提高LLMs在少样本和零样本学习任务中的性能。

COSP方法

COSP方法可以自动地生成提示,同时保持提示的一致性和多样性,从而提高模型的泛化能力。COSP方法包括两个阶段:第一阶段是示例选择阶段,第二阶段是提示构建阶段。如下图所示:

「示例选择(第一阶段)」

首先,从LLM的零样本输出中选择一组示例。这些示例是模型在没有任何标签或样本的情况下生成的输出。

为了选择示例,COSP方法使用了一致性、多样性和重复性等准则。具体而言,COSP方法首先计算每个输出的自我一致性得分。自我一致性得分衡量了模型在不同运行中生成相同输入的输出时的一致性程度。然后,COSP方法选择得分最高的一组输出作为示例。

接下来,COSP方法通过计算示例之间的相似性来选择多样性示例。相似性可以通过计算示例之间的余弦相似度或其他相似度度量来衡量。COSP方法选择与已选示例相似度较低的示例,以增加示例的多样性。

最后,COSP方法通过重复选择示例来增加示例的数量。这样做可以增加模型对不同输入的泛化能力。

「提示构建(第二阶段)」

在提示构建阶段,COSP方法使用选择的示例来构建提示,以帮助模型进行推理。

具体而言,COSP方法使用示例的输入和输出来构建提示。示例的输入作为提示的前缀,示例的输出作为提示的后缀。

这种提示构建方法可以自适应地生成提示,因为它直接使用了模型在零样本情况下生成的输出作为提示的内容。同时,这种方法还保持了提示的一致性和多样性,因为选择的示例具有一致性和多样性。

通过使用COSP方法生成的提示,LLM可以在零样本推理任务中获得更好的性能。具体而言,COSP方法可以帮助LLM在没有任何标签或样本的情况下进行推理和学习,从而提高模型的泛化能力。

「COSP优点总结」

COSP方法的优点在于可以自动地生成提示,同时保持提示的一致性和多样性,从而提高模型的泛化能力。与其他基于提示的方法相比,COSP方法不需要手动设计提示,因此更加灵活和高效。与基于元学习的方法相比,COSP方法不需要大量的标注数据和计算资源,因此更加实用。

实验结果

在一组算术和推理问题上,与三个LLM(PaLM-62B、PaLM-540B、GPT-3)相比。COSP 相对于零样本 CoT 基线进行了改进,在 PaLM-62B 和 GPT-3 上看到了特别大的增益,与具有自一致性基线的零样本 CoT 相比,平均提高了 10% ∼ 15%。

0 人点赞