从ACL 2022 Onsite经历看NLP热点

2022-11-11 10:51:29 浏览数 (1)

作者 | AlbertYang

大家好,这里是NewBeeNLP。今天给大家分享一篇大佬的ACL参会总结,整理了一些当前NLP领域的热点和有趣的工作。以下是原文

作为拖延症患者马上要NAACL了才写这个ACL的参会总结:(

Onsite会议上见到了许久未见的前老板Bonnie Webber(ACL 2020终身成就奖/Lifetime Achievement Award),更巧的是她主持了老板Diyi Yang的Rising Star Talk,Diyi还有一个outstanding paper 和一个tutorial,大概暗示Diyi不久的将来也会成为领域里的传奇吧:)。

接下来我主要从大模型的视角出发,根据ACL 2022 中tutorial,workshop,invited talks (the next big ideas, keynote, rising star talks) 列了一下自己眼中的NLP 热点和最新的有趣工作。

1. 继续预训练大模型仍然是工业界的大方向之一

在“Zero- and Few-Shot NLP with Pretrained Language Models” 的Tutorial中,Iz Beltagy 在最后一部分介绍了预训练时候的顾虑。除了讲述标准模型架构和高效训练方法的相关问题之外,我认为有两点值得关注,

  • 其一是在开启预训练之前就要根据经验公式,来预估给定计算资源时能够达到最好效果的模型大小,试想一个OPT-175B的模型需要1000 张80G的A100训练两个月,即使是工业界也只有极少数的lab有这样的资源,是不可能允许多次实验尝试来决定最优模型的。
  • 其二是预训练数据本身的筛选与构建应该被给予更多关注。

另外还有专门讨论模型预训练的workshop:“Workshop on Challenges & Perspectives in Creating Large Language Models”

2. 让大模型解决更全面的NLP问题,以及NLP之外的问题

包括Extend large-scale Transformer models to multi-task, multimodal, multilingual settings。

2.1 Cross-task Generalization

2.1.1 Instructions as Task Descriptions

和FLAN, T0, InstructGPT 类似,“NatrualInstructions” 也是利用对任务描述的instructions作为prompt的一部分,让在多个已知任务上预训练(meta-training)的模型能够根据未知任务上的instruations实现cross-task generalization:

  • “Cross-Task Generalization via Natural Language Crowdsourcing Instructions.” (以及之后的“NatrualInstructions V2”)
  • “MetaICL: Learning to Learn In Context” (Meta-training指在训练阶段就让模型见到不同task的指令,而不是直接在inference阶段把 task指令给GPT3)
  • “Adapting Language Models for Zero-shot Learning by Meta-tuning on Dataset and Prompt Collections“ (earlier work)
  • “Meta-learning via Language Model In-context Tuning“

2.1.2 Continual / Lifelong Learning

有一些特定的方法能帮助Continual/Lifelong Learning,比如“Continual Sequence Generation with Adaptive Compositional Modules”利用了类似MoE的方法来组合不同任务的模块。

2.2 Multimodal Learning

我整理的multimodality paper list 几个月不更新已经有点out-of-date了

  • https://github.com/JingfengYang/Multi-modal-Deep-Learning

2.2.1 视觉

随着Transformer在视觉任务上也展现出越来越好的效果,多模态预训练在ACL会议上也被大量关注,最新的进展可以在 Tutorial: “Vision-Language Pretraining: Current Trends and the Future”中找到。

但现如今视觉语言预训练的目标大多还是以语言词汇mask或者视觉语言对的判定作为目标,图片的mask复原(MAE方式)在多模态预训练中还没有见到很有效的进展,tutorial中指出这是值得研究的下一个突破点。

确实,语言由于词汇语义信息丰富,作为监督目标是效果比较好的(Jacob Andreas举办的“Learning with Natural Language Supervision” 的workshop也强调了这一点),如何在多模态预训练中用好图片低密度的语义信息(如BEiT)作为目标,仍值得研究。

2.2.2 表格 多模态预训练还包含了更多的模态,比如语言和表格,和视觉语言预训练类似,如何设计更好的预训练目标,如何实现更好的表格与文本对齐,也是值得探究的问题。我在谷歌的文章在这一方向上做了进一步的探究:“TableFormer: Robust Transformer Modeling for Table-Text Encoding” 。

2.2.3 代码 另外Code pretraining等在工业界越来越多的公司来做,除了OpenAI的codex、微软的收费codepilot之外,AWS 发布了CodeWhisperer,Luke在Meta也在预训练code generation model。semantic parsing大概要被这些模型统治了,或者至少要靠code generation model来帮助生成数据,来解决没有训练数据的窘境(我和Jacob Andreas聊天时他强力推荐的方法)。

2.3 Multilingual Learning

2.3.1 有趣的方向 除了更多的Multilingual预训练模型以及针对更多下游任务的应用不断出现(e.g. “mLUKE: The Power of Entity Representations in Multilingual Pretrained Language Models”),我认为比较有趣的和值得探索的有以下几个方面:

  • “Multi Task Learning For Zero Shot Performance Prediction of Multilingual Models” 提出了更严格的多任务框架来预测多语模型Zero-shot cross-lingual transfer的表现,不需要在目标low-resource language评估,甚至在low-resource language完全没有标注数据作为测试集时,即可预测模型的零资源跨语言迁移效果。
  • 关于预训练多语模型为什么表现好,仍是一个没有定论的问题。:“Cross-Lingual Ability of Multilingual Masked Language Models: A Study of Language Structure”再次指出词表overlap(anchor)并不是pretrained multilingual model跨语言能力的原因,Constituent的顺序也不是,而语义的组合才是。而之前有研究关于word anchor有类似或者相反的结论。
  • 关于如何预训练更好的多语模型和覆盖更多样的语言,除了在同一语系(如indo-European language)中使用subword或者character 可以有多共享的词汇作为“anchor”(比如”Canine: Pre-training an Efficient Tokenization-Free Encoder for Language Representation“);对于差异很大的语言,比如中文和英文,我认为还应该设法让模型学到不同语言间共享的语法结构,比如类似Universal Dependency(UD)的结构,在我们之前的工作(”Frustratingly Simple but Surprisingly Strong: Using Language-Independent Features for Zero-shot Cross-lingual Semantic Parsing“)中UD被证明对zero-shot cross-lingual semantic parsing帮助巨大。

2.3.2 Special Theme 这次ACL的special theme就是 “Language Diversity: from Low-Resource to Endangered Languages”,在rising star talk上Sebastian Ruder 做了 “Scaling NLP Systems to the Next 1000 Languages”的演讲。确实,对于语料极少语言的NLP问题是从社会影响和公平性角度极为重要的问题。

3. 用好大模型

学术界没有大量的计算资源来预训练模型,不过仍有许多极有价值的问题适合去做,比如其中一大类就是如何用好预训练模型。How to use large-scale models ?

3.1 Decoding / Sampling

对于极大规模的模型,在大部分场景下无法fine-tune,如何设计更加有效的Decoding和Sampling,以直接利用模型的生成能力是研究的重点。

比如Ryan Cotterell 在“Typical decoding for natural language generation”提出的sampling算法能生成更自然的语言并且减少重复生成的问题。如何设计更好的constrained decoding算法来实现controllable generation仍是重点,比如“COLD Decoding: Energy-based Constrained Text Generation with Langevin Dynamics” ,以及我比较喜欢的constrained decoding做IE的方法 “Multilingual Autoregressive Entity Linking”(我们的工作“SEQZERO: Few-shot Compositional Semantic Parsing with Sequential Prompts and Zero-shot Models.”也用了类似的方法),另外,non-autoregressive generation/multi-stage generation也还是常用的方式(我在之前的工作“Planning and Generating Natural and Diverse Disfluent Texts as Augmentation for Disfluency Detection.”做过类似尝试)。

3.2 Prompt**

基于prompt的方式已经成为一种主要的利用大规模模型的方法 (清华的OpenPrompt拿了 best demo奖),除了常见的prompt,in-context learning (类似GPT3给定few-shot输入输出样例子)之外,利用生成的explanations去帮助模型得到更好的结果,以及将instructions作为prompt的一部分,这些都成了常用的进一步提升生成结果的方法。会议/tutorial/talk中提到的一些有趣的论文有:

  • “Noisy channel language model prompting for few-shot text classification“
  • “Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?”
  • “Can Explanations Be Useful for Calibrating Black Box Models?”
  • “The Unreliability of Explanations in Few-Shot In-Context Learning”
  • “Cross-Task Generalization via Natural Language Crowdsourcing Instructions”
  • “Maieutic Prompting: Logically Consistent Reasoning with Recursive Explanations”
3.2 Effiecient Models

如何设计更高效的模型(模型压缩,quantization,adapter等)仍是热点,比如:

  • “Structured Pruning Learns Compact and Accurate Models”
3.3 Language Models as KG

把大模型视为knowledge base,它可以帮助我们生成有助于解决任务的知识进而帮助任务本身:

  • “Generated Knowledge Prompting for Commonsense Reasonin”
3.4 Language Models to Generate Data

大模型强大的生成能力或者zero-shot/few-shot能力可以帮助生成标注数据以及生成数据作为数据扩增的方式,比如“Generating Data to Mitigate Spurious Correlations in Natural Language Inference Datasets” (我们EMNLP 2020 的工作“Planning and Generating Natural and Diverse Disfluent Texts as Augmentation for Disfluency Detection”也可以算是最早用预训练模型(GPT2)生成扩增数据的工作之一了,那时BART和T5刚出来,还没有GPT3)。

3.4 Zero/few-shot Learning & Learning with Limited Data

大模型时代我们可以更好地在有限数据的场景下学习(limitted data learning)或者few/zero-shot learning。两个极其火爆的tutorial是了解相关工作的极好材料:

  • “Learning with Limited Text Data”:我老板Diyi Yang介绍了data augmentation的相关工作(欢迎关注我们最近的工作“SUBS: Subtree Substitution for Compositional Semantic Parsing”),Colin Raffel提出了一个统一的框架来理解各种semi-supervised learning方法,Ankur Parikh从multilinguality的视角下做了介绍(感谢Ankur Parikh 在Google内部对我们ACL TableFormer工作的审核,我们在致谢中提到了他)。
  • “Zero- and Few-Shot NLP with Pretrained Language Models” 具体介绍了prompting/in-context learning,instructions/task descriptions, adapter, meta-training, evaluation, pretraining.

4. 大模型无法完成的

另外学术界更关注的还是大模型做不了的、由模型或者问题本身性质决定的问题,以及预训练框架的本质缺陷。

4.1 Ambiguity

Yejin Choi 在KeyNote中提到的Ambiguity现象可以cover到很大一部分问题。她提到Ambiguity是自然语言的内在性质,自然语言理解不是严格的分类问题(“language understanding is not categorization”),我们应该接受无处不在的ambiguity,NLP最基本的任务POS Tagging中POS的定义在随时间而变化;给定不同的场景(context),两句话的NLI关系可能由蕴含变为相斥(“Partial-input baselines show that NLI models can ignore context, but they don’t.”);情感分类由最初的只有postive negtive标签,到引入了neutral的标签;由于标注者的个体不同,人的标注不可避免会有ambiguity和bias(“Annotators with Attitudes: How Annotator Beliefs And Identities Bias Toxic Language Detection”);自动问答中也有AmbigQA、SituatedQA这样的数据集(Eunsol Choi在rising star talk中再次强调了同一个问题的答案可能随时间 temporal 、地点 geographical 等背景的变化而变化);nonmonotonic reasoning中,引入新的知识后,原有的推论和逻辑会被推翻。最近temporal modeling本身也成为比较火的领域(如TKGC,时序/event数据的建模等)。另外模型如何理解ambiguous的数据,以及利用ambiguous的数据提升模型也有很多有趣的工作,Swabha Swayamdipta在rising star talk 中着重介绍了用training dynamics发现ambiguous,并生成ambiguous 数据来帮助提升模型(OOD)泛化能力的工作(“WANLI: Worker and AI Collaboration for Natural Language Inference Dataset Creation”)。

4.2 Reasoning / Logic / Structure
  • 在“the next big ideas” talk中,逻辑/推理/结构这些大模型本质的缺陷再次被着重强调。Heng Ji 强调了结构在multilingual transfer(例如我们之前的“Frustratingly Simple but Surprisingly Strong: Using Language-Independent Features for Zero-shot Cross-lingual Semantic Parsing”文章), 长文本理解,多模态泛化中都应发挥更关键的作用。Dan Roth提到知识的解构(decompose),重组(compose)和规划(plan)的决策过程是实现推理(如temporal/numerical reasoning)的关键, 如何利用各种各样的Incidental supervision signal(比如Comparable texts/Language-world mapping)是学习这个决策(decision)过程的途径。感觉有点类似Zhiting Hu的Panoramic Learning — training AI agents with ALL types of experiences了哈哈哈。
  • “符号主义真的还需要吗?”的争论仍在继续,一方面Hang Li等仍在强调逻辑的重要性(用类似MoE的方式组合Neural Prediction和Symbolic Prediction)。一方面Yejin Choi在keynote中Continuum部分所说,随着大模型的成功,“语言(language),知识(knowledge),推理(reasoning)”应该在大模型时代融为一体,而我们之前过分强调了形式和逻辑的作用(“Reasoning is intuitive inference where logic plays a marginal role”),用形式语言和逻辑cover掉所有自然语言中的variation是永远不可能的。
4.3 Out-of-distribution (OOD)Generalization & Robustness
  • 大模型在out-of-distribution data上泛化的能力仍是模型实际应用中最应该关心的问题之一。在语言中Compositionality关注度明显提升,在和Luke的聊天中他提到他们最近的code pretrained model规模增大的情况下compositional generalization也会有明显的提升,在和Jacob Andreas的交流中他还是强调了数据在compositionality的作用(包括数据扩增,利用大模型生成数据等),Sash(Alexander Rush)貌似最近也对compositionality极感兴趣,可惜没找到机会和他聊天。此外,利用大模型逐步prompting是最近比较火热的提升compositionality方式。更具体的细节可以看 我的讲述compositionality的文章以及我们的两篇NAACL工作 :十年内就能实现通用人工智能?先把组合泛化研究明白吧!
  • 关于Robustness,利用out-of-distribution/perturbed data来attack模型来检验或者提升模型仍然持续有文章出现(比如我们的“TableFormer: Robust Transformer Modeling for Table-Text Encoding”)。
4.4 Long Document Understanding / Generation
  • 这里包括Corpus / Discourse / Story / Screenplay / long dialogue/ Movie / TV series等的理解和生成
  • 大模型对长文本的理解和生成仍是最大的问题之一。一种解决方案是提升模型允许编码的序列长度和改进self-attention效率,一种是先retrieve出来重要的短文本再编码,另外一种就通过结构进行多层级编码或解码。在“the next big ideas”演讲中,Heng Ji重新强调了corpus-level IE的重要性,Mirella Lapata强调了故事的重要性。
4.5 Knowledge
  • 关于在大模型时代的知识图谱(KG),Heng Ji基本提到了可能的用法:1)To pretrained LM 2)GNN 3)Structural constraints during inference 4)Structure alignment via weak supervision and self-supervised learning。
  • 大模型本身也可以当作知识库(生成知识)或者帮助KG的构建,比如Yejin Choi也有一系列commonsense KG构建和使用的工作。
  • Semi-parametric 的方法也成了主流之一,retrieval-augmented的方法已经被广泛应用于理解和生成任务,这方面依然不断有有趣的工作出现,如“Training Language Models with Memory Augmentation”。另外,“Semiparametric Methods in NLP: Decoupling Logic from Knowledge” workshop也是我最喜欢的workshop之一,除了cover到大部分相关方向,Deepmind提到的用retrievel的方式做蛋白质结构预测的工作,让许久不做biology的我着实眼前一亮。
4.6 Problem Definition / Dataset Creation / Evaluation
  • Edaurd Hovy 在big ideas演讲里提到了应该从问题本身思考,找出有什么wrong/worst case/never seen cases,明白”why things go wrong”,再寻找解决方案。这也是我一直以来认为在研究和工程中应该遵循的方式,好好做error analysis,发现问题,再对症下药。
  • 另一方面,做NLP最重要的不应该是模型本身,人(human)应该调动主管能动性去更好地定义问题,构建数据集,进行更好的evaluation(evaluation仍然是generation中老大难的问题)。

5 Large LM 的目的:更好地为人类所用(help people instead of replacing people)

5.1 Interactive Learning / Human-in-the-loop / Human-AI Collaboration

Eduard Hovy 在big ideas的演讲中提到了除了相对客观的在LM或者web中的知识(Commonsense knowledge about Schema mined from web/LM)人以及社会的知识也极为重要(Commonsense knowledge about people and people in groups: roles)。并且人应该去指导模型达成想要的目标。我想这也是interactive learning,human-in-the-loop learning作为热门研究话题要达到的一部分目的。比如有趣的工作有Ensol Choi的“Simulating Bandit Learning from User Feedback for Extractive Question Answering”,以及Yejin提到的“Reframing human-ai collaboration for generating free-text explanations”。

5.2 SocialNLP

我老板Diyi Yang给的rising star talk详细讲述了人和社会因素应该在NLP中发挥更大的作用(很高兴见证终身成就奖老板Bonnie主持Rising Star老板的talk)。另外Diyi的outstanding paper “Inducing Positive Perspectives with Text Reframing”定义了“积极转述”这个很有社会影响的问题,很开心对这个工作有过微小的贡献。

5.3 Complex Tasks

随着大模型能力越来越强,可能可以做一些人类非常关心的,更复杂的,使我们成为人的任务,比如Mirella Lapta提到的story understanding和story telling,我非常喜欢她提到的类似“stories make us human”的观点。

5.4 安全性/隐私

大模型的安全性问题仍然是重点,federated learning在这次ACL中有一个workshop“Federated Learning for Natural Language Processing”。Privacy方面也持续有文章值得关注,比如“Are Large Pre-Trained Language Models Leaking Your Personal Information?”。

5.5 Personalization

Personalization在工业界(搜索,推荐,广告)和学术界关注度都很高, 比较吃惊的是和Jason Eisner的聊天中他提到最近他也对Personalization很感兴趣并期待和工业界合作。

结语

Onsite Conference的体验还是很好的,最开心的是很多big name在会议上有充足的时间来面对面交流,从paper/talk/tutorial中也学到了不少。还有一天就要onsite参加NAACL了,期待!

0 人点赞