导读
2019年EMNLP自然语言处理实证方法会议11月3日至7日在中国香港召开。作为自然语言处理领域的顶级会议之一,在本次大会中,中国被接收的论文数量在所有国家和地区中位居第二。本届大会举办了18场 Workshops 、多个Tutorials和主题丰富的会议活动,吸引了超过1922人参会。
本篇文章是RUC AI Box小组成员分享了他们参加今年EMNLP 2019会议的感想和总结,同时精选了EMNLP 2019获奖论文进行解读。
EMNLP 2019 参会小结
作者介绍
卞书青,中国人民大学2019级博士研究生、研究方向自然语言处理。在今年EMNLP 2019上被录用一篇长文《Domain Adaptation for Person-Job Fit with Transferable Deep Global Match Network》。
李思晴,中国人民大学2018级硕士研究生、研究方向自然语言处理。在今年EMNLP 2019上被录用一篇长文《A Neural Citation Count Prediction Model based on Peer Review Text》。
周昆,北京大学2017级硕士研究生、研究方向对话系统。在今年EMNLP 2019上被录用一篇长文《Unsupervised Context Rewriting for Open Domain Conversation》。
上周,RUC AI Box小组几位同学有幸参加了2019年自然语言处理实证方法大会(EMNLP),本届会议在东方之珠中国香港(亚洲国际博览中心)举行。作为自然语言处理领域的顶会之一,今年的大会举办了多场Workshops 、多场Tutorials和主题丰富的social event。KAIST计算机学院副教授Meeyoung Cha、纽约大学计算机科学和数据科学副教授Kyunghyun Cho以及IBM Research AI工程师Noam Slonim等知名大咖围绕计算机社会科学、AI系统、深度学习等主题发表演讲。
大会开幕式由本次大会的主席为日本东北大学教授 Kentaro Inui致辞,程序委员会三名主席分别是新加坡管理大学蒋静副教授、德克萨斯大学达拉斯分校Vincent Ng教授、北京大学万小军教授。
而从今年大会给出的会议投稿的维度分析来看,自然语言处理领域的竞争正变得越来越来越激烈,今年提交论文2914篇,比2018年的EMNLP增加了约30%,使EMNLP 2019成为有史以来最大规模的NLP会议。今年大会共接收论文683篇。其中长文465篇,接收率为25.6%。短文218篇,接收率为20.5%。总接收率为 23.7%,相比去年 24.6% 的接收率略有下降。
从接收论文的分数分布情况可以看出,想要在EMNLP2019发表一篇论文是相当的不容易。去年分数在3.67分及以上的论文很少被拒,而今年得到3.67分的论文仍有 30% 以上被拒,要得到 3.83 分才比较保险,这一结果也反映出了NLP研究激烈的竞争程度。
而从提交的论文领域来看,机器学习依旧占有绝对的领先地位,摘要和生成、机器翻译、信息抽取等领域的投稿量也较大。
今年中国也已经成为emnlp投稿量最大的国家,美国成为大会被接收论文最多的国家,大概有260篇。中国位居第二,约有200篇论文被录用。
会上同时也公布了未来几个NLP重要的举办城市:
- ACL 2021将在泰国曼谷举办
- EMNLP 2020将在多米尼加共和国的普塔卡纳举办。
- COLING 2020:西班牙巴塞罗那
- AACL 2020:中国苏州
- ACL 2020:美国西雅图
今年的大会Tutorial也非常精彩,这里我们简要介绍两场tutorial的报告。
Discreteness in Neural Natural Language Processing
本场tutorial是由University of Alberta的牟立力博士和字节跳动的李磊博士,周浩博士带来的基于神经网络的自然语言处理中的离散符号问题提供了全面的指南。介绍基于深度学习的NLP的背景,指出自然语言无处不在的离散性及其在神经信息处理中的挑战。 特别是,我们将集中讨论这种离散性如何在神经网络的输入空间,潜在空间和输出空间中发挥作用。 在每个部分都提供相关的例子解释,讨论机器学习技术以及NLP的相关应用。该场tutorial的slides可以在下面的链接中获取。
https://lili-mou.github.io/
Graph-based Deep Learning in Natural Language Processing
该场tutorial介绍了基于图的深度学习技术的最新进展,例如用于自然语言处理任务的图卷积网络。简要介绍了非欧路域上的深度学习方法,并证明了它们在自然语言处理中的相关性。此外,讲义还涵盖了基于图的深度学习方法应用于自然语言处理任务的最新进展,例如语义角色标记,机器翻译,关系抽取等等。该场tutorial的slides可以在下面的链接中获取。
https://shikhar-vashishth.github.io/assets/pdf/emnlp19_tutorial.pdf
一周的EMNLP之旅精彩难忘,作为一名从事NLP研究工作的同学,通过参与今年的EMNLP的大会活动中,不仅感受到组委会热情细致的安排,体会到了专业、细致的工作态度。更看到了自然语言处理整个行业的欣欣向荣的景象,也看到了同行之间交流观点分享经验的纯粹的学术热情。我们不仅从大会中感受到当前NLP领域技术变化之快,同时也体会到坚持回归计算语言本身,强调探求更深入的理论解释。EMNLP 2020将在多米尼加共和国举行,衷心祝愿大会越来越精彩,期待明年的再相会~
最后以东方之珠中国香港的美丽风景结束这次难忘之旅。
EMNLP 2019 获奖论文解读
最佳论文解读转载选自新智元(AI_era)公众号
1
最佳论文奖: Specializing Word Embeddings (for Parsing) by Information Bottleneck
作者:Xiang Lisa Li,Jason Eisner (约翰霍普金斯大学)
摘要:
ELMo和BERT这类的预训练词嵌入包含了丰富的语法和语义信息,从而在各种任务中获得最先进的性能。
我们提出一种非常快速的变分信息瓶颈(variational information bottleneck, VIB)方法来对这些嵌入进行非线性压缩,只保留有助于判别解析器的信息。我们将嵌入词压缩为离散标签或连续向量。
在离散标签版本中,我们的自动压缩标签形成了一个备选标签集:我们通过实验证明,这些标签可以捕获传统POS标签注释中的大部分信息,但是在相同的标签粒度级别上,我们的标签序列能够被更准确地解析。
在连续向量版本中,我们通过实验证明,通过我们的方法适当地压缩词嵌入,可以在9种语言中的8种语言中生成更精确的解析器,而不像简单的降维那样。
我们用瓶颈变量t来实例化信息瓶颈。锯齿形箭头表示一个随机映射,即锯齿形箭头从一个分布的参数指向从该分布抽取的样本。
2
最佳论文提名奖: Designing and Interpreting Probes with Control Tasks
作者:John Hewitt,Percy Liang(斯坦福大学)
摘要:
“探针”(Probes)是一类监督模型,用于从表示(如ELMo)中预测属性(如词性),它们在一系列语言任务中取得了很高的准确性。但这是否意味着表示对语言结构进行了编码,还是仅仅意味着探针模型已经学会了语言任务?
在这篇论文中,我们提出控制任务(control tasks),即把单词类型和随机输出联系起来,从而对语言任务进行补充。这些任务只能通过探针本身来学习。因此,一个好的探针应该是有选择性的,能够实现较高的语言任务准确性和较低的控制任务准确性。探针的选择性将语言任务的准确性与探针记忆单词类型的能力联系起来。
我们构造了英文词性标注和依赖项边缘预测的控制任务,并证明了常用的ELMo表示的探针是没有选择性的。我们还发现,通常用于控制探针复杂度的dropout对提高MLP的选择性无效,但其他形式的正则化是有效的。最后,我们发现在ELMo的第一层上的探针比第二层上的探针产生的词性标记精度稍好一些,而在第二层上的探测具有更强的选择性,这就提出了一个问题,即哪个层能更好地表示词性。
控制任务为词汇表中的每个单词类型定义随机行为(如随机输出)。无论上下文如何,每个单词标记都被分配其类型的输出。控制任务与语言任务(例如,词性任务)具有相同的输入和输出空间,但是只在探针记住映射时才能学习。
3
最佳资源奖: Two New Evaluation Datasets for Low-Resource Machine Translation: Nepali-English and Sinhala-English
作者:Francisco Guzmán, Peng-Jen Chen, Myle Ott, Juan Pino, Guillaume Lample, Philipp Koehn, Vishrav Chaudhary, Marc'Aurelio Ranzato
作者机构:Facebook AI Research、索邦大学、约翰霍普金斯大学
对于机器翻译,世界上绝大多数语言对都是低资源的,因为它们几乎没有可用的并行数据。除了在有限的监督下学习这一技术挑战之外,由于缺乏自由和公开的基准,很难评估在低资源语言对上训练的方法。
在这项工作中,我们基于从维基百科翻译的句子,提出了尼泊尔语-英语和僧伽罗语-英语的FLORES评估数据集。与英语相比,这些语言具有非常不同的形态和语法,而且很少有领域外的并行数据可用。
我们描述了收集和交叉检查翻译质量的过程,并使用几种学习设置报告了基准性能:完全监督、弱监督、半监督和完全无监督。我们的实验表明,目前最先进的方法在这个基准上表现相当差,这对研究低资源机器翻译的社区提出了挑战。
实验的数据和代码已经在GitHub公布:
https://github. com/facebookresearch/flores.
4
最佳Demo奖: AllenNLP Interpret: A Framework for Explaining Predictions of NLP Models
作者:Eric Wallace, Jens Tuyls, Junlin Wang, Sanjay Subramanian, Matt Gardner, Sameer Singh
作者机构:艾伦人工智能研究所、加州大学欧文分校
摘要:
Neural NLP模型越来越精确,但并不完美,而且不透明——它们的方式是反直觉的,让最终用户对它们的行为感到困惑。模型解释方法通过为特定的模型预测提供解释来改善这种不透明性。遗憾的是,现有的解释代码库很难将这些方法应用到新的模型和任务中,这阻碍了从业者采用这些方法,并给可解释性研究人员带来了负担。
我们提出了一个用于解释NLP模型的灵活框架——AllenNLP Interpret。该工具包能为任何AllenNLP模型和任务提供了解释原语(例如,输入梯度)、一套内置的解释方法和一个前端可视化组件库。
我们通过在各种模型和任务上演示了五种解释方法(例如,显著性映射和对抗性攻击),展示了该工具包的灵活性和实用性。
使用AllenNLP Interpret为NER生成的解释。该模型为一个输入(顶部)预测三个标签,我们分别解释每个标签。
这些demo,以及代码和教程,都已经在GitHub上开源:
https://allennlp. org/interpret.