GPT调教指南:让你的语言模型性能时时SOTA,资源已公开

2021-07-29 17:03:52 浏览数 (1)


新智元报道

来源:外媒

编辑:Priscilla LQ

【新智元导读】有些语言模型虽然在一些快速实验中表现SOTA,对于任何真实应用部署,仍需特定训练,这就需要「微调」。本文提供了一份详细指南,教你如何微调常用语言模型,还会通过在twitter情感检测数据集上微调来比较其性能。

文本生成是一项有趣的NLP任务:输入提示→生成文本。

△ T5文本到文本框架示例(来源:Google AI Blog)

在这一过程中,会用到某种形式的「序列到序列」这一王者模型,如语言模型——应用语言模型根据前面的句子预测接下来的单词。

近年来,这一研究领域非常热门,主要因为:1)有几个高性能的预训练模型可供使用; 2)NLP任务转化为「text-in text-out」问题比较容易。

T5开发者非常直观地呈现了这些,相同的模型可以用于语言翻译、文本回归、摘要等。

本文主要关注GPT-2,GPT-Neo和T5:

GPT-2: 它是OpenAI发布的一系列原始语言模型的第二次迭代。正是这一系列模型让GPT出名的。GPT即「Generative Pre-trained Transformer」,目前有3个版本(v1、 v2和 v3)。目前只有 GPT-1和 GPT-2是开源的,本实验将选择最新的版本。在技术方面,GPT-2的体系结构由Transformer架构的解码部分组成。

GPT-Neo: 该模型由EleutherAI开发,为了对抗GPT-3, 目前尚未开源,其架构与GPT-3相当类似,不过它的训练文本数据集是825 GB.

T5: 即「Text-to-Text Transfer Transformer」,是Google贡献的开源语言模型,展示了使用完整的编解码器架构(transformer)优于仅使用解码器(如GPT),因此T5保持了原有的transformer架构。

需要注意的是,每个模型都根据可调参数大小进一步发布了几个版本。本文选择的是117M 的 GPT-2,125M 的 GPT-Neo 和220M 的 T5。

3个模型对比如下,

情感检测任务和数据集

为了检验不同模型的性能,实验在对简单任务(情感检测)进行微调之后对比其准确性。

本测试用的是Twitter情感分析数据集,其中包含160万条推文,消极言论、积极言论均有。

△Twitter情感分析数据集下载地址:

https://www.kaggle.com/kazanova/sentiment140

为了提高计算效率,实验从中抽取了10000条推文,情感类型分布平均。

然后,用95%的数据训练模型,5%的数据用于测试目的。

为了公平比较,实验使用了相同的测试,并对所有三种模型进行分组训练。

最后,实验将对每个模型进行3次分别测试并对每个模型进行训练,这是一种复制3次验证试验的方法。

实验报告了个人和聚合(平均) f1宏评分,可用于模型的性能比较。

现在有一个问题,如何将情感检测任务转换成文本生成任务?

答案很简单,创建一个直观的提示符(带数据的模板) ,它可以反映出类似的表示如何在网络上发生。

即把一条推文作为输入,想要产生情感输出。

所以对于提示,实验把一条推文放在

后,期待模型预测出情感,生成在下一行

后面。

这种产生有效提示的过程叫「prompt engineering」,显示出了仅改变提示就能使语言模型表现更佳!

实验先从最简单的提示格式开始展示,有两种不同的提示,分别用于训练和测试,展示如下:

训练提示(我们希望模型学习这个「模式」来解决「任务」)

测试提示(现在我们希望模型已经学习了「任务」,因此可以完成「模式」)

因此,在测试过程中,作者只提取模型预测的、在

后的单词,并将该单词作为预测的情感标签。

现在,实验开始!

微调GPT-2和GPT-Neo

由于GPT-2和 GPT-Neo 架构几乎相同,因此大多数微调代码保持不变。因此,为了简洁起见,作者只分享了 GPT-2的代码,但也将指出适用于 GPT-Neo 模型所需的更改。接下来就从处理数据集开始,首先创建一个 Pytorch

,用它定义如何为训练准备数据。

这包括三个模块:

标记和存储的数据的地方

:返回总数据集的长度。这是每个epoch内计算步长所必需的

:获取数据,然后返回

另外,(1) 在第8行,作者定义了用于将原始数字情感标签转换为文本标签的映射,(2)在第12行,作者将数据转换为我们决定的训练提示符,(3)在第14行,作者执行tokenization(将推文分割成token 用它们唯一的 id 替换它们)。

接下来,将数据与Dataset类连接起来。代码分解如下:

第4-8行:从加载数据集开始。数据集可以下载(https://www.kaggle.com/kazanova/sentiment140)并在第4行修改本地路径。接下来,只对相关列设为子集,并且重命名。在第 8 行,作者实验采样了1万条推文。

第10-13行:将数据拆分为训练和测试,分别为95%和5%. 使用「stratify」标志,让拆分在情感类别中均匀分布。

第16行:将数据传递给「Sentiment Dataset」。可以对测试数据做同样的事情,测试时只是以原始形式返回了测试数据。

现在准备训练模型。代码分解如下:

第10-13行:加载分词器,添加一些特殊的标记,用来表示推文的不同部分,最后加载模型。

请注意,第5行已经定义了模型名称:GPT-2. 另外,添加特殊标记是为了让模型学习提示的开始和结束。这有助于稍后的测试阶段,因为我们不希望模型继续写下一个单词,但模型应该知道什么时候停止书写。要实现这一点,可以设置「eos_token」,训练模型在分类标签后进行预测。

第16行:用之前定义的函数加载和准备数据集。

第21-24行:为训练过程设置配置。简而言之,定义了模型的保存位置和时间、训练时间的长度和日志保存的位置,以及使用「batch_size」、「warmup_steps」和「weight_decay」的训练策略。

第27-31行:连接模型与训练数据集,开始训练。在「data_collator」中定义了如何处理训练数据。collator 中的前两个元素是「input_ids」——经过标记的提示和「attention_mask」——一个简单的1/0向量,表示已标记向量的提示和填充部分。

最后一部分非常有趣,将输入数据作为标签传递,而不仅仅是情感标签。这是因为我们正在训练一个语言模型,因此希望模型能够学习提示的模式,而不仅仅是情感类标签。

从某种意义上说,该模型是在学习预测输入推文的单词 提示中结构化的情感,并在此过程中学习情感检测任务。

训练即将开始。计算机不同,耗费的时间也不一样。

最后对测试块进行了定义,获取训练过的模型并将其应用于保留的测试数据。以下是代码分解:

第5行:在模型上开启评估模式。

第8-15行:对于每个测试数据,首先会准备提示,但一个很不同的地方就:不包括情绪标签,因为这是我们希望模型预测的内容。另外,我们希望模型能够预测情感标签「eos_token」,然后通过输出「eos_token」来中断操作。最后,标记测试提示。

第17行:接受测试提示并预测下一组单词。这个函数中有很多参数,定义了如何预测下一个词。

第20-30行:从解码预测文本开始,即,将预测的标记id重新转换为文本。然后我们提取预测的情感标签并将所有相关信息存储到列表中。

第33-37行:首先将所有提取的信息合并到pandas dataframe中,提高可读性,然后使用sklearn包中的「f1_score」函数来计算完整模型的性能。

在运行GPT-2代码,并在数据集拆分代码中执行三次不同的「random_state」操作时,我们观察到该模型实际上能够像预期那样进行完美预测。它能够预测标签,然后使用「eos_token」中断执行。

f1宏评分为81.7%. 这与实验预料中的专用情感检测模型执行的效果进行了比较,这进一步强调了在NLP中,使用文本生成模型进行迁移学习非常容易。

GPT-Neo兼容代码

为了让GPT-2代码适用于GPT-Neo,必须做出以下修改:

  • 导入「GPTneoForCausalLM」
  • 将「model_name」设置为「EleutherAI/gpt-neo-2.7B」(从任何可用大小的模型中选择)
  • 加载模型时使用 「GPTNeoForCausalLM」代替「GPT2LMHeadModel」。

运行GPT-Neo修改后的代码,并遵循相同的训练策略,f1宏评分为 80.7%!

微调T5

T5的架构与GPT不同,T5保持原始的Transformer架构,而GPT仅保留解码器部分。

为训练 T5,作者使用了一个名为SimpleT5的wrapper package,它删除了训练阶段中大部分模板。虽然训练时的句法会发生变化,但整体流程和直觉仍然保持不变。

下面是数据部分。

从上图可以看出,大部分代码与实验之前为GPT模型所做的相同。

但一个最大的变化是无需Dataset一类,因为SimpleT5直接在pandas dataframe上工作。因此,团队加载数据,进行一些初始预处理,拆分数据并返回pandas dataframe。

无需标记创建Dataset,岂不妙哉?

值得注意的是,无需为此包创建提示格式。这样能够将输入的推文和情感标签分离到不同的列中,这里分别是「source_text」和「target_text」。

加载和训练模型也非常简单,只需3行代码即可完成。

下一步就是在测试数据集上测试微调的T5模型。

如图可见,推理部分也非常简单:第 11 行使用了predict函数并只传递「source_text」来获取预测的情感标签。

稍后会将其与「original_label」进行比较,生成第18行的性能分数。

在运行 T5 代码并遵循与之前相同的训练策略时,f1宏评分为80.7%.

研究结果

汇总所有结果就能得出以下表格:

要补充一点:在这一过程中,作者没有涉及超参数。

作者认为,要是再加上即时工程方法,只需使用这两种方法,就可以进一步提高所有模型的性能指标。

虽然 GPT-2 可能这一轮测试中表现更佳,但上面的表格也确实显示了文本生成模型的整体实力。三个模型在情感检测任务上都表现得非常好,只需要进行几个时期的训练。

即使这个实验是为单个任务完成的,作者仍然希望这能展示将TG模型用于全新的任务是有多容易。

在某种程度上,如果可以将NLP问题转化为文本生成问题,那预训练的模型就不会失败,或者说至少不会彻底失败。

各位读者感兴趣的话也不妨试着执行一下,看看会不会有更高的分数。

参考资料:

https://towardsdatascience.com/guide-to-fine-tuning-text-generation-models-gpt-2-gpt-neo-and-t5-dc5de6b3bc5e

GPT资源:http://mohitmayank.com/a_lazy_data_science_guide/natural_language_processing/GPTs.html#finetuning-gpt-2-for-sentiment-classification

T5资源:http://mohitmayank.com/a_lazy_data_science_guide/natural_language_processing/T5.html#t5-finetuning

0 人点赞