EMNLP2022 | “Meta AI 9篇接受论文”，其中7篇主会、2篇Findings

多语言生成模型

像GPT-3这样的大规模生成语言模型非常适合小样本学习。虽然这些模型能够联合表示许多不同的语言，但它们的训练数据以英语为主，这会限制它们的跨语言泛化。本文在涵盖多种语言的语料库上训练多语言生成语言模型，并研究它们在广泛任务中的少样本和零样本学习能力。

随机小样本Prompt

大型语言模型(LM)能够在上下文中学习并应用于下游任务，主要是通过调节几个输入标签对并对新输入进行预测。然而，对于模型如何学习以及哪些方面有助于提升下游任务的性能，人们知之甚少。本文中证明使用随机标签的小样本Prompt几乎和使用真实标签一样好，为上下文学习如何工作提供了一个新的视角。

基于知识挖掘的模型微调

基于Prompt模型微调对模板高度敏感，而从业者在严格的零样本设置下设计它们时是盲目的。在本文中，提出了一种基于挖掘的替代方法来进行零样本学习。不使用提示语言模型，而是使用正则表达式从未标记的语料库中挖掘标记示例，可以选择通过提示进行过滤，并用于微调预训练模型。该方法比Prompt更灵活和可解释，并且结果优于采用模板的模型微调方法。

小样本ELECTRA

本文将基于Prompt的小样本学习方法应用于ELECTRA（高效学习能够准确分类Token替换的编码器），并表明它在广泛的任务中优于掩码语言模型。ELECTRA 经过预训练以区分Token是生成的还是原始的。通过训练自然地将其扩展到基于prompt的少样本学习，以在不引入新参数的情况下对目标选项的独创性进行评分。实验结果表明，ELECTRA 学习的分布更符合下游任务。

多语言翻译

多语言机器翻译会受语言间信息干扰。一个常见的解决方案是放宽与特定语言模块（如适配器）的参数共享。但是，相关语言的适配器无法传递信息，并且随着语言数量的增加，它们的参数总数变得非常大。本文使用超适配器（从语言和层嵌入生成适配器的超网络）克服了这些缺点。针对扩展超网络时效果不佳的问题，提出了一种重新调整修复方法，可以显着提高收敛性并能够训练更大的超网络。达到相同的性能，超适配器比常规适配器的参数减少多达12倍。

数据集质量影响

绝大多数非英语语料库来源于CommonCrawl的自动过滤版本。虽然之前的工作已经确定了这些数据集存在质量问题，但尚不清楚这如何影响下游性能。以巴斯克语的表示学习为例，本文探索了定制爬取(手动识别和抓取具有高质量内容的网站)作为过滤CommonCrawl的替代方案。本文的新语料库名为EusCrawl，大小与流行的多语言语料库(如CC100和mC4)中的巴斯克语部分相似，但根据本地注释者的说法，它的质量要高得多，但是这种改进并不能延续到下游NLU任务。

自回归 MoE 语言模型

Mixture of Experts layers (MoEs) 通过条件计算可以实现语言模型的有效扩展。本文详细介绍了自回归 MoE 语言模型在各种设置中是如何扩展：域内/域外语言建模、零/少样本启动以及全样本精调。除了微调之外，发现 MoE 的计算效率要高得多。经过适当的预训练，达到密集模型相同的性能，MoE可以减少4倍的计算量，但是在不同任务之间差异也是比较大。

诗歌生成模型(Findings)

形式诗体对诗的格律和韵式有严格的限制。在此之前，大多数关于生成这类诗歌的工作都是使用现有的诗歌进行监督，对于大多数语言和诗歌形式来说，这些诗歌很难获得。在这项工作中，我们提出了一种无监督的方法，根据任何给定的韵律和韵律方案生成诗歌，不需要任何诗歌文本进行训练。我们的方法是将一个规则的、非诗意的语料库分割成短语，预先设置描述每个短语的长度和结尾韵的控制代码，并在增强语料库中训练一个转换语言模型。实验表明，本文方法能够生成有效的诗歌，其质量通常与人类所写的诗歌相当。

PLMs评估(Findings)

之前，关于预训练语言模型的工作探索了不同的架构和学习目标，但数据、超参数和评估的差异使得原则上的比较变得困难。本文将双向性作为区分现有方法的关键因素，并全面研究其在下一个标记预测、文本填充、零样本启动和微调中的作用。提出了一个新的框架来概括先前的方法，包括像GPT这样的完全单向模型，像BERT这样的完全双向模型，以及像CM3和前缀LM这样的混合模型。该框架区分了双向性的两个概念（双向上下文和双向注意），并允许分别控制它们中的每一个。

历年EMNLP论文获取

后台回复：历年EMNLP

NLP服务

0 人点赞