上下文学习和指令微调之间到底有什么关系?

2023-11-23 13:24:01 浏览数 (2)

深度学习自然语言处理 原创 作者:cola

上下文学习(ICL)和指令调优(IT)是将大型语言模型(LLM)应用于下游应用的两种主要范式。ICL推理时提供了一组示例(demonstrations),但LLM的参数没有更新。而IT的示例用于在训练时调整LLM的参数,但在推理时没有使用。虽然越来越多的文献探讨了ICL和IT,但这两种范式之间仍然是脱节的。本文通过研究LLM的隐藏状态在这两种范式中如何变化,来探索ICL和IT之间的关系。

论文: EXPLORING THE RELATIONSHIP BETWEEN INCONTEXT LEARNING AND INSTRUCTION TUNING 地址: https://arxiv.org/pdf/2311.10367.pdf

介绍

在实际应用中,部署大型语言模型(LLM)的成功在很大程度上归功于两种主要学习范式的有效性:上下文学习(ICL)指令调优(IT)。ICL是GPT-3论文中介绍的一种范式,涉及利用在推理时提供的一组演示来指导模型的响应,但在此过程中模型的参数没有更新。相比之下,它指的是以监督的方式进一步训练LLM的输入、输出以及指令的过程。它被证明可以有效地增强LLM在未见任务上的泛化能力,也是LLM对齐的可行策略。图1以情感分析为例说明了ICL和IT。

虽然ICL和IT是增强LLM能力的两种主要方法,但目前对ICL和IT的研究是单独进行的。这就引出了一个研究问题:ICL和IT之间有什么联系,它们如何增强LLM的能力?本文通过输入序列的最后一个token的隐藏状态来检查ICL和IT之间的联系。

在自回归模型中,输入序列最后一个token的隐藏状态包含了整个输入序列的信息,并确定了下一个单词预测的logit向量。在ICL和IT的背景下,出现了三种情况,每种情况产生不同的隐藏状态,具体哪三种情况下一节详细介绍。

分析框架

图2中以评论的情感分析为例说明了分析框架。在这个框架中,我们分别研究了不同示例(零样本与少样本ICL)和不同范式(ICL与IT)对模型隐藏状态的影响。由于最后一层的最后一个token的隐藏状态总结了整个输入序列的信息,并确定了下一个单词预测的logit向量,因此主要关注与序列的最后一个输入标记相关的隐藏状态。

我们将指令表示为

X

(这个评论的情感是什么?),示例表示为

A=(Text A, Label A)

(评论:这是一部很棒的电影。情感:积极的),推理文本为

B=(Text B)

(评论:我喜欢这部电影。),分别考虑以下三种情况:

基础情况下

基本的零样本学习设置,其中不提供示例来指导模型推理。这种情况下,将指令与推理示例(即

X Text B

)组合起来并提供给LLM。然后收集输入序列的最后一个标记的最终隐藏状态,记为

h_{anchor}

ICL情况下

在ICL中,示例以及推理示例(即

X Text A Label A Text B)

被提供作为LLM的输入,然后由LLM直接推断最后一个标记的分布。收集输入序列的最后一个标记的最终隐藏状态,记为

h_{ICL}

。比较

h_{anchor}

h_{ICL}

之间的相似性,可以检查所提供的示例的效果。如果相似度较低,则表明示例信息被LLM合并,从而消除最终的隐藏状态。

IT情况下

与ICL不同,我们使用示例(即

X Text A Label A)

来指导微调LLM,从而得到调谐的LLM。然后,我们将推理示例(即

X Text B)

送入微调后的LLM,并获得最后一个token的最终隐藏状态,记为

h_{IT}

。最终LLM的输入序列在基本情况和IT情况下都是完全相同的,唯一的区别是,基本情况是普通LLM,而IT情况是指令微调后的LLM。因此,通过对比

h_{anchor}

h_{IT}

,我们可以量化其效果。

由于ICL和IT中使用了相同的论证,因此可以精确地量化论证的效果。通过改变所提供的示例,我们还可以确定ICL与之相关的程度。我们进一步将

s_{anchor}-ICL

表示为

h_{anchor}

h_{ICL}

的相似度,将

s_{anchor}-IT

表示为

h_{anchor}

h_{IT}

的相似度。还计算了

h_{ICL}

h_{IT}

之间的相似性,记为

s_{ICL}−IT

,量化了ICL及其收敛的程度。如果

s_{ICL}−IT

很高,则表示尽管模型参数在ICL中没有更新,但它们引导模型向相同的方向前进。

实验

  • 数据集:用SST2进行情感分析实验,WMT16的EN-CS进行英-捷克语翻译。
  • LLMs:用LLaMA-2-base作为基础模型,包括7B和13B。
  • 指令微调:用LoRA对LLaMA-2进行指令微调。
  • 重复实验:用不同的随机种子重复30次实验。

实验发现

1️⃣ICL和IT收敛:我们在图3a中展示了隐藏状态的相似性。

h_{anchor}

_{hICL}

h_{IT}

之间的相似度几乎为零,表明该模型在暴露于上下文示例时或被示例微调时,其隐藏表示发生了重大变化。此外,

_{hICL}

h_{IT}

之间的高相似性(约0.9)表明该模型确实在ICL和IT之间具有相似状态。

2️⃣示例-推理相似度:ICL与IT之间的收敛与示例和推理示例之间的语义相似度正相关。进一步研究了示例(即图2中的Text A)和推理示例(即Text B)之间的语义相似性如何影响ICL-IT收敛。实验结果如图4所示。显然,ICL和IT之间的相似性随着示例和推理示例之间的相似性的增加而增加(图4c)。一种可能的解释是,与推理示例更相似的示例可以更好地增强模型的ICL能力,对模型也更有帮助,从而获得更高的收敛性。

相比之下,

h_{anchor}

h_{IT}

之间的相似性表现出相反的趋势,如图4a所示,这表明与推理示例更相似的示例可以在更大程度上改变模型的状态。而

h_{anchor}

_{hICL}

之间的相似性始终保持较低,如图4b所示。这表明,将示例纳入ICL输入可以一致地、显著地影响模型的推理。

3️⃣示例的数量:ICL与IT之间的收敛随着示例数量的增加而增加。我们考虑了1、2、5和10样本的情况。为确保公平的评估,保持一致的参数更新时间和指令调整模型,分别为10、5、2和1个epoch(s),在图5中展示了结果。随着纳入更多的示例,我们观察到ICL和IT之间的收敛有明显的增加趋势。类似地,使用与同一任务相关的更多示例可以更好地调整该特定任务的模型,从而使ICL和IT之间的收敛水平更高。

4️⃣标签错误:标注错误的示例对ICL-IT收敛性略有影响。在本实验中,我们将示例的标签颠倒(例如,将"Positive"更改为"Negative"),并再次进行ICL和IT。结果如图3b所示。我们发现虽然ICL和IT仍然表现出高水平的收敛,但与图3a相比,在使用正确的标签时,程度略低于对应的程度。此外,ICL-IT收敛程度的变化幅度显著增加,箱线图的四分位间距变大,晶须变长。

作为完整性检查,我们检查使用错误的标签是否会损害模型性能,并在图6中显示结果。令人惊讶的是,尽管我们确实观察到性能下降,但这种下降在统计上并不显著。

5️⃣不同的任务:不同的任务不会影响ICL-IT的收敛。我们将任务改为机器翻译,使用WMT16的EN-CS子集将英语翻译为捷克语,但情感分析仍然是推理任务。我们在图3c中展示结果。显然,ICL-IT、Anchor-ICL和Anchor-IT在相似度上的高水平收敛表明,涉及机器翻译任务的示例不会影响模型对情感分析任务的推理能力。

6️⃣中间层:ICL之间的收敛在后面的层开始增加。在这个实验中,我们检查了LLM所有层中输入序列的最后一个token的隐藏状态。结果如图7所示,ICL和底层IT之间的高度相似性主要是由于隐藏状态都类似于锚点隐藏状态,这意味着它们不受示例的显著影响。LLM的中间层逐渐受到示例的影响,导致ICL与IT在中间层的相似度较低。最终,当输入更接近最终输出的更高层时,ICL的隐藏状态和IT的隐藏状态开始收敛。

附加分析

LLAMA-2-13B

该实验验证ICL和IT是否收敛于更大的LLM。选择LLaMA-2-13B作为基础模型,重复相同的分析过程,量化Anchor-IT、Anchor-ICL和ICL-IT之间的相似性。结果如图8a所示,表明ICL-IT收敛性仍然很高。然而,Anchor-IT和Anchor-ICL也实现了高水平的收敛,表明更大的模型即使在没有提供任何示例的情况下也更有能力理解任务。

监督学习

指令微调与经典的监督学习的不同之处在于,前者采用额外的指令来增强LLM的泛化能力,而监督学习通常教LLM专注于特定的任务。为进一步理解指令在其中的作用,对LLM进行了经典的监督学习。该实验从训练输入中删除指令,并仅使用任务示例来微调LLM。将这种监督情况表示为SL。重复相同的分析过程,并计算Anchor-SL、Anchor-ICL和ICL-SL之间的相似性。

结果如图8b所示。虽然ICL和SL之间仍然存在收敛,但收敛分数明显低于IT对应的ICL和SL(如图3a所示)。这一观察强调了指令在推动LLM隐藏状态中ICL和IT之间的收敛方面的关键作用。

从上下文学习中坜街指令微调

该实验不关注隐藏状态,而是计算LLM的每个token损失的变化。将每个token损失定义为序列中每个输出token和相应的真值token之间的交叉熵损失。实验过程如图9所示:

使用不同的种子值进行了30次独立实验。结果如图10所示。观察到与"指令"组件相比,"示例"组件的损失下降更显著,表明调整后的模型更有可能在给定指令的情况下重现与任务相关的示例。换句话说,该指令在推理时以某种方式被它关联的示例替换,从而产生与ICL类似的输入。

鲁棒性检测:机器翻译

将情感分析任务替换为机器翻译任务,并进行相同的过程,以检查ICL与其之间的联系是否仍然成立。利用WMT16数据集的EN-CS子集将英语文本翻译成捷克语,结果如图8c所示。结果发现ICL与IT之间的相似性非常高。且不同于情感分析中Anchor-IT和Anchor-ICL的相似度低至零,机器翻译任务中的相似度更高。但通过统计检验发现,ICL与IT的相似度大于Anchor-ICL和Anchor-IT的相似度,这就排除了这三个隐藏状态彼此非常相似的可能性。

总结

本文探讨了上下文学习(ICL)和指令调优(IT)之间的联系。通过实验提供了强有力的证据,表明ICL可以通过IT实现。换句话说,IT可以通过使用示例改变LLM的隐藏状态,就等同于ICL。这一发现揭示了LLM两种学习范式(ICL vs. IT)的行为,可能有利于基础LLM与下游现实世界应用的开发和对齐。


0 人点赞