引言
语言模型有时很难理解比较复杂的上下文,它们可能无法准确遵循指令并难以对文档进行推理,从而导致模型在上下文学习中表现出很大的差异。为此,本文作者提出一种新的方法:上下文预训练(IN-CONTEXT PRETRAINING),其中语言模型在一系列相关文档上进行预训练,从而引导模型进行跨文档边界阅读和推理。
具体地,作者引入了两种新的近似算法,更改文档顺序来进行上下文预训练,使得每个上下文都包含相关文档,显着增强了对整个上下文的理解和推理,并且它可以直接应用现有的预训练管道。
Paper:https://arxiv.org/pdf/2310.10638.pdf
背景介绍
训练大型语言模型 (LLMs) 实现文档补全;每个Token都是根据它所在文档前缀提供的上下文来预测。在预训练阶段,此类上下文种类可以很多,这样可以让模型能够在各种任务上展现较好的性能,例如:指令遵循、对话交互、阅读理解和上下文学习。然而,「最近的研究表明,语言模型有时很难理解比较复杂的上下文,它们可能无法准确遵循指令,并难以对文档进行推理」,从而导致在上下文学习中表现出很大的差异。
当前的LM训练管道主要是通过连接随机的短文档集来创建较长的上下文窗口。然而,先前的文档没有提供用于预测下一个文档的信号,这会给不需要它们之间通信的Token带来不必要的计算开销。In-Context Pretraining 通过组合几个语义相关的文档来重新排序预训练数据,从而创建一个连贯的输入上下文,从而使LM暴露于长相关的上下文,并提供超越文档边界的预训练信号。 举个例子,如上图所示。当预测短语“For 2022, FIFA set the prize money at 42m”之后的tokens时,之前一份文档指出“World Cup never awarded more than 10M before 2022”可能会存在上下文中,从而最终预测的Token结果为:“the highest so far.”。由于In-Context Pretraining只改变文档顺序,而不影响LM预训练的所有其他方面,因此它可以很容易地集成到大型语言模型(LLMs)的现有预训练管道中。
为此,本文作者提出了一种新的预训练方法:上下文预训练(In-Context Pretraining),它能够预测以相关文档序列为条件的Token,当面对超出文档边界且变化多样的上下文时,模型依然能够对此进行读取和推理。
In-Context Pretraining
预训练的标准做法是通过连接随机文档直到达到最大上下文长度来形成输入上下文,然后使用该上下文来训练 LM。然而,与单独对每个文档进行训练相比,在随机连接的文档上训练 LM 并不能提供额外的学习标记。相比之下,上下文预训练通过在预训练期间将语义相关的文档连接在一起来生成更连贯的输入上下文。
如下图所示,上下文预训练包含两个步骤:首先大规模查找相关文档,然后使用这些相关文档构建输入上下文。接下来,使用语义相关文档形成的上下文来预训练具有语言建模目标的 LM。由于上下文预训练与现有的 LM 预训练方案相同,除了改变输入上下文的构建方式之外,它可以轻松集成到大规模 LM 的现有预训练管道中。
然而,在构建输入上下文过程文档,如何对文档进行排序是一个比较有挑战性的问题。因为语言模型在预训练阶段通常会被喂入数十亿的文档数据,而我们希望对它们进行排序,并以最大限度地提高输入上下文窗口中的文档相似性。
针对文档排序问题,本文引入了两种新的近似算法。具体来说,作者使用了「具有高效检索索引的检索模型来构建文档图」,其中文档图根据嵌入空间中的语义相似性将每个文档与其最邻近文档进行配对;
同时,作者将文档排序表述为旅行推销员问题,为此开发了一种有效的算法,它可以「最大限度地提高文档与其上下文的相似性」,同时确保每个文档仅包含一次。
实验结果
为了评估上下文预训练(In-Context Pretraining)的有效性,作者在 CommonCrawl 数据集的3000 亿个Token上预训练了 0.3 到 70 亿个参数的语言模型。在所有模型规模上,上下文预训练语言模型 (ICLM)优于在同一语料库上使用标准方法预训练模型。
与现有的 LM 相比,上下文预训练带来的各种改进:
(1)上下文学习在 8 个数据集上平均提高了 8%;
(2)阅读理解,8项阅读理解任务平均提高15%;
(3)检索增强,当使用外部知识(例如从维基百科检索的文档)进行增强时,可实现 9% 的增益。
推荐阅读
[1]分享10篇,关于QA问答的最新研究!
[2]上交大提出Meta-CoT,增强LLMs推理能力
[2]NeurIPS2023,分享10篇值得阅读的paper!
[2]伯克利提出环注意力,最高支持100M上下文!
[2]2023年9月,爆款论文总结,最新学术进展!
[3]RAIN:大模型无需微调,即可实现对齐!!
[5]猛犸象大模型!数学大模型,现已超过GPT-4!