EMNLP 2023 | 分享10篇值得阅读的paper,其中:微调7B模型性能堪比175B

2023-10-24 18:49:10 浏览数 (1)

引言

 距离EMNLP2023放榜已经有两周了,相关接收论文也正在陆陆续续地更新。虽迟但到,最近抽时间看了下已接收的论文,整理了十篇还不错的文章给大家分享一下,主要涉及:大模型微调(微调7B模型性能堪比175B)、中文拼写检查、数据合成、问题生成、开放QA问答、Transformer改进(涉及MASFormer、SRformer)、多跳QA问答、知识反思等。

另外,作者整理的EMNLP2023论文集也在持续更新中,获取方法回复:EMNLP2023

LLM高效微调

Paper:https://arxiv.org/pdf/2304.01933.pdf

 GPT-4和ChatGPT等大型语言模型(LLM)的成功逐步替代原有模型方案,主要通过使用特定于任务的指令数据进行微调。在各种微调方法中,基于适配器的参数高效微调(PEFT)无疑是最有吸引力的主题之一,因为它只需要微调几个外部参数而不是整个LLM,就可以更好的性能。

 为了进一步研究LLMs的PEFT方法,本文提出了「LLM-Adapters,这是一个易于使用的框架,它将各种适配器集成到LLM中,并且可以针对不同的任务执行LLM PEFT方法」。作者评估了适配器在来自两个不同推理任务(算术推理和常识推理)的十四个数据集上的有效性。结果表明,在较小规模的LLM(7B)中使用基于适配器的PEFT,且几乎没有额外的可训练参数,在两个推理任务的零样本推理中,「其性能可与强大的LLM(175B)相当」

中文拼写检查

Paper:https://arxiv.org/pdf/2310.09119.pdf

Code:https://github.com/THUKElab/DR-CSC

 近年来,通过特定任务进行模型预训练和引入辅助任务,中文拼写检查(CSC)性能得到了很大提升,这些任务大多以端到端的方式进行。为此本文提出了将中文拼写检查(CSC)工作流程分解为检测、推理和搜索子任务,以便更直接、更有效地利用有关中文的丰富外部知识。

 具体来说,本文作者设计了一个即插即用的检测和推理模块,该模块与现有的 SOTA 非自回归 CSC 模型兼容,以进一步提高其性能。实验结果发现为一种模型训练的检测和推理模块也可以使其他模型受益。

数据合成

Paper:https://arxiv.org/pdf/2310.13671.pdf

Code:https://github.com/RickySkywalker/Synthesis_Step-byStep_Official

 标注数据需要耗费大量的人力,而数据合成则是一种很有效的方法。其中,关于数据合成的一种方法是利用大型语言模型的丰富知识来合成小型模型的训练示例。然而,数据合成存在一个关键的问题,即合成的数据集通常与“真实任务”数据分布存在很大的分布差异。

 为此,本文作者提出了逐步合成方法(Synthesis Step by Step,S3),这是一种数据合成框架,如上图所示。该框架通过迭代推断在小型真实数据集上训练的小型模型所产生的错误来缩小这种分布差距。根据对多个 NLP 任务的实验结果发现,该方法减少合成数据集和真实数据之间的差距,提高了小模型的性能,与几个基线相比有了显着的改进:与ZeroGen相比提高了9.48%,与在人工注释数据上训练的小型模型相比最多提高 15.17%。

LLM在数学教育中的应用

Paper:https://arxiv.org/pdf/2310.13615.pdf

 由于大型语言模型(LLM)优秀的语言理解和生成能力,人们已经开始逐步探索了它们在教育领域的应用。然而,关于利用大型语言模型(LLM)来帮助学生学习数学的应用却相对较少。为此,本文作者主要讨论了利用大型语言模型的适应性反馈来提高学生解决数学问题的能力所面临的3个挑战。

 最后,作者针对LLMs在数学推理教学的应用,制定了三个最值得研究的问题:1)大型语言模型(LLM) 会产生错误的推理过程;2)大型语言模型(LLM) 会误解数学问题的含义;3)大型语言模型(LLM) 在尝试纠正学生的答案时也难以理解给定问题的基本原理。

开放域QA问答

Paper:https://arxiv.org/pdf/2310.13552.pdf

Code:https://github.com/noewangjy/SP-CoT

 在开放域问答(ODQA)中, 大型语言模型 (LLM) 在无需外部语料库的情况下展现出了强劲的性能。此外,思想链(CoT)提示可以通过手动或自动范例提高LLMs的推理能力。然而,现有的自动化方法缺乏质量保证,而手动方法的可扩展性与多样性差,这也限制了LLMs的能力。

 为此,本文作者提出了自我提示的思想链(SP-CoT),这是一种自动化框架,SP-CoT 引入了高质量 ODMR 数据集的自动生成管道、用于上下文 CoT 选择的自适应采样器以及通过上下文学习进行自我提示推理。对四个多跳问答基准的大量实验表明,我们提出的 SP-CoT 不仅在大规模(175B)LLM 上显着超越了之前的 SOTA 方法,而且在小规模(13B)LLM 上的零样本性能也提高了近一倍。

问题生成(QG)

Paper:https://arxiv.org/pdf/2310.13512.pdf

Code:https://github.com/zeaver/MultiFactor

 本文研究主要是根据上下文与答案来生成问题,特别是关注跨扩展上下文进行多跳推理的问题。之前的研究表明,关键短语的选择对于问题生成(QG)至关重要,但将这些脱节的短语连接成有意义的问题仍然具有挑战性,特别是对于长上下文。

 为解决这个问题,作者提出了 MultiFactor,一种基于多级内容规划的新型 QG 框架。具体来说,MultiFactor 包括两个组件:FA 模型(同时选择关键短语并生成完整答案)和 Q 模型(将生成的完整答案作为附加输入来生成问题)。作者引入了完整答案生成,将简短答案与所选关键短语连接起来,从而形成答案感知摘要以方便 QG。FA 模型和 Q 模型都被形式化为简单但有效的短语增强转换器,这是我们用于短语选择和文本生成的联合模型。实验结果表明,该方法在两个流行的 QG 数据集上优于强基线。

改进Transformer

Paper:https://arxiv.org/pdf/2310.12442.pdf

 预训练Transformer模型利用注意力机制来捕获序列中的长程和短程依赖性。然而,(完全)注意力机制会产生很高的计算成本——序列长度的二次方。可以想象,当输入Token数量为8K时其计算量是非常大的。尽管目前有研究提出通过稀疏注意力可以用来提高计算效率,但该方法的建模能力有限,并且通常无法捕获长序列中的复杂依赖关系。

 为此,本文作者提出了MASFormer,这是一种易于实现的具有混合注意力跨度的Transformer变体。具体来说,MASFormer 具有充分的注意力来捕获远程依赖关系,但仅限于少量层。对于其余层,MASformer 仅采用稀疏注意力来捕获短程依赖性。实验表明,仅包含 1.3B 参数的解码器 MASFormer 模型降低计算成本高达75%,并且性能与普通 Transformer基本保持一致。

Text-to-SQL

Paper:https://arxiv.org/pdf/2310.10190.pdf

 ChatGPT 的成功引发了一场人工智能竞赛,研究人员正在努力开发新的大型语言模型(LLM),旨在超越商业模型的语言理解和生成能力。近年来,出现了许多模型,声称通过各种Prompt调整方法,性能接近 GPT-3.5 或 GPT-4。作为Text-to-SQL解析的研究人员,感谢他们对开源研究的宝贵贡献。然而,重要的是要以审视的态度对待这些主张,并确定这些模型的实际有效性。

 因此,本文将六种流行的大型语言模型(Dolly、LLaMA、Vicuna、Guanaco、Bard、ChatGPT)相互比较,在九个基准数据集上系统地评估它们的文本到 SQL 解析能力,并采用五种不同的提示策略,涵盖零样本和少样本场景。遗憾的是,目前开源的模型性能明显低于 GPT-3.5 等闭源模型所达到的性能,这凸显了需要进一步开展工作来弥合这些模型之间的性能差距。

分段循环Transformer

Paper:https://arxiv.org/pdf/2305.16340.pdf

 Transformer 的计算成本随着序列长度呈二次方增长,对于资源受限的应用程序来说,使用Transformer是不可能的。为了解决这个问题,本文作者将整个序列分为多个片段,并对各个片段使用局部注意力机制,提出了一种分段循环变压器(SRformer),它将分段(局部)注意力与循环注意力相结合。其中:减少注意力窗口长度造成的损失可以通过聚合具有循环注意力的片段的信息来补偿。

 SRformer 利用循环累积激发 (RAF) 神经元的固有记忆来更新键和值的累积乘积。分段注意力和轻量级 RAF 神经元确保了所提出的转换器的效率。这种方法可以让模型以较低的计算成本进行处理。将SRformer 应用于T5和BART。修改后的模型在摘要数据集上进行测试,模型的 ROUGE1 分数比分段变压器高 6−22%,并且优于其他循环变压器方法。

知识反思

Paper:https://arxiv.org/pdf/2305.08732.pdf

Code:https://github.com/zjunlp/knowledge-rumination

 先前的研究表明,普通的预训练语言模型 (PLM) 缺乏单独处理知识密集型 NLP 任务的能力;因此,一些工作尝试将外部知识集成到 PLM 中。然而,作者通过观察发现 PLM 可能已经在其预训练参数中编码了丰富的知识,只不过在处理知识密集型任务时未能充分利用。

 为此,本文作者提出了一种称为“知识反思”的新范式,以帮助预训练语言模型利用相关的潜在知识,而无需从外部语料库中检索它。在六个常识推理任务和 GLUE 基准的实验结果证明,本文方法可以更好地利用 PLM中存储的知识来提高性能。

多跳QA问答

Paper:https://arxiv.org/pdf/2304.13007.pdf

 当前多跳问答 (QA) 系统通常会将问题分解为一系列推理步骤,称为思维链 (CoT),然后再得出最终答案。通常,多个链会通过投票机制对最终答案进行采样和聚合,但中间步骤本身会被丢弃。虽然这些方法提高了性能,但它们没有考虑跨链中间步骤之间的关系,也没有为预测答案提供统一的解释。

 为此,本文作者引入了多链推理(MCR),这种方法促使大型语言模型对多个思维链进行元推理,而不是聚合它们的答案。MCR 检查不同的推理链,混合它们之间的信息,并选择最相关的事实来生成解释和预测答案。MCR 在 7 个多跳 QA 数据集上的性能优于强基线。

0 人点赞