多语言生成模型
像GPT-3这样的大规模生成语言模型非常适合小样本学习。虽然这些模型能够联合表示许多不同的语言,但它们的训练数据以英语为主,这会限制它们的跨语言泛化。本文在涵盖多种语言的语料库上训练多语言生成语言模型,并研究它们在广泛任务中的少样本和零样本学习能力。
随机小样本Prompt
大型语言模型(LM)能够在上下文中学习并应用于下游任务,主要是通过调节几个输入标签对并对新输入进行预测。然而,对于模型如何学习以及哪些方面有助于提升下游任务的性能,人们知之甚少。本文中证明使用随机标签的小样本Prompt几乎和使用真实标签一样好,为上下文学习如何工作提供了一个新的视角。
基于知识挖掘的模型微调
基于Prompt模型微调对模板高度敏感,而从业者在严格的零样本设置下设计它们时是盲目的。在本文中,提出了一种基于挖掘的替代方法来进行零样本学习。不使用提示语言模型,而是使用正则表达式从未标记的语料库中挖掘标记示例,可以选择通过提示进行过滤,并用于微调预训练模型。该方法比Prompt更灵活和可解释,并且结果优于采用模板的模型微调方法。
小样本ELECTRA
本文将基于Prompt的小样本学习方法应用于ELECTRA(高效学习能够准确分类Token替换的编码器),并表明它在广泛的任务中优于掩码语言模型。ELECTRA 经过预训练以区分Token是生成的还是原始的。通过训练自然地将其扩展到基于prompt的少样本学习,以在不引入新参数的情况下对目标选项的独创性进行评分。实验结果表明,ELECTRA 学习的分布更符合下游任务。
多语言翻译
多语言机器翻译会受语言间信息干扰。一个常见的解决方案是放宽与特定语言模块(如适配器)的参数共享。但是,相关语言的适配器无法传递信息,并且随着语言数量的增加,它们的参数总数变得非常大。本文使用超适配器(从语言和层嵌入生成适配器的超网络)克服了这些缺点。针对扩展超网络时效果不佳的问题,提出了一种重新调整修复方法,可以显着提高收敛性并能够训练更大的超网络。达到相同的性能,超适配器比常规适配器的参数减少多达12倍。
数据集质量影响
绝大多数非英语语料库来源于CommonCrawl的自动过滤版本。虽然之前的工作已经确定了这些数据集存在质量问题,但尚不清楚这如何影响下游性能。以巴斯克语的表示学习为例,本文探索了定制爬取(手动识别和抓取具有高质量内容的网站)作为过滤CommonCrawl的替代方案。本文的新语料库名为EusCrawl,大小与流行的多语言语料库(如CC100和mC4)中的巴斯克语部分相似,但根据本地注释者的说法,它的质量要高得多,但是这种改进并不能延续到下游NLU任务。
自回归 MoE 语言模型
Mixture of Experts layers (MoEs) 通过条件计算可以实现语言模型的有效扩展。本文详细介绍了自回归 MoE 语言模型在各种设置中是如何扩展:域内/域外语言建模、零/少样本启动以及全样本精调。除了微调之外,发现 MoE 的计算效率要高得多。经过适当的预训练,达到密集模型相同的性能,MoE可以减少4倍的计算量,但是在不同任务之间差异也是比较大。
诗歌生成模型(Findings)
形式诗体对诗的格律和韵式有严格的限制。在此之前,大多数关于生成这类诗歌的工作都是使用现有的诗歌进行监督,对于大多数语言和诗歌形式来说,这些诗歌很难获得。在这项工作中,我们提出了一种无监督的方法,根据任何给定的韵律和韵律方案生成诗歌,不需要任何诗歌文本进行训练。我们的方法是将一个规则的、非诗意的语料库分割成短语,预先设置描述每个短语的长度和结尾韵的控制代码,并在增强语料库中训练一个转换语言模型。实验表明,本文方法能够生成有效的诗歌,其质量通常与人类所写的诗歌相当。
PLMs评估(Findings)
之前,关于预训练语言模型的工作探索了不同的架构和学习目标,但数据、超参数和评估的差异使得原则上的比较变得困难。本文将双向性作为区分现有方法的关键因素,并全面研究其在下一个标记预测、文本填充、零样本启动和微调中的作用。提出了一个新的框架来概括先前的方法,包括像GPT这样的完全单向模型,像BERT这样的完全双向模型,以及像CM3和前缀LM这样的混合模型。该框架区分了双向性的两个概念(双向上下文和双向注意),并允许分别控制它们中的每一个。
历年EMNLP论文获取
后台回复:历年EMNLP