直播预告丨明晚6:30,阿里巴巴 ACL`22 论文分享会,翻译与生成专场!

2022-04-21 14:45:16 浏览数 (1)

主题:阿里巴巴ACL 2022 论文分享会 翻译与生成专场

时间

4月20日 18:30

直播间二维码

扫码进入ACL2022交流群

若二维码过期或群内满200人时,添加小助手微信(AIyanxishe3)备注ACL2022拉你进群

流程

18:30-18:55

分享嘉宾:杨可心

分享主题:GCPG: A General Framework for Controllable Paraphrase Generation

18:55-19:20

分享嘉宾:万宇

分享主题:UniTE: Unified Translation Evaluation

19:25-19:50

分享嘉宾:魏相鹏

分享主题:Learning to generalize to More: Continuous Semantic Augmentation for Neural Machine Translation

19:50-20:15

分享嘉宾:袁正

分享主题:Code Synonyms Do Matter: Multiple Synonyms Matching Network for Automatic ICD Coding

20:15-20:30

QA环节

分享概要

杨可心-达摩院机器智能实验室-研究型实习生

论文标题:GCPG: A General Framework for Controllable Paraphrase Generation

论文摘要:

可控式复述生成旨在结合各种外部控制条件来获得用户理想的复述结果。然而,现有工作只使用词汇控制条件或句法控制条件对模型进行约束,缺乏一个统一的框架来探究和分析这两类条件的有效性。

在本文中,我们提出了一个可控式复述生成的通用框架GCPG,该框架能够将词法和句法条件都表示为文本序列,并在编码器-解码器范式中统一处理它们。在GCPG下,我们重构了常用的词汇条件 (关键字) 和句法条件 (词性序列、线性语法树、掩码模板和语法范例),并研究了两种类型的组合。其中,针对语法范例条件,我们提出了一种新的范例构造方法——基于句法相似度的语法范例SSE。SSE为每个目标句检索一个语法相似但词汇不同的句子作为范例,避免了语法范例词抄袭的问题。

大量实验表明,基于SSE的GCPG在两种常用的复述数据集上都取得了最优结果。此外,词汇条件和句法条件的组合表现出显著的可控式复述生成能力,这些实验结果可以为面向用户的复述方法提供新的视角。

万宇-达摩院机器智能实验室-研究型实习生

论文标题:UniTE: Unified Translation Evaluation

论文摘要:

现有机器翻译结果的评价方法,主要可分为翻译质量评测(metric,有参考译文)和质量评估(quality estimation,仅有源端输入)两大类;而根据输入格式不同,又可分为三类任务:仅有目标端译文(reference-only),仅有源端输入(source-only),和两者皆有(source-reference-combined)。

虽然三类任务的输入格式不同,但其本质是相通的:通过提供的额外输入来评价翻译结果;此外,单一适用于一个场景的方法无法在其它场景中给出确信的结果,导致现有方法迁移能力差。针对上述两点,我们在本工作中探究如何给出一种统一的框架和模型训练方法,来充分利用三个任务之间的共同之处,完成三类翻译评价任务的同时,又能给出高确信度的评价结果。

实验结果表明,我们的单一模型在三类任务中均超越了现有方法,相关成果也在WMT2021 Metrics比赛中成绩优异,充分验证了我们方法的迁移性和有效性。

魏相鹏-达摩院机器智能技术实验室

论文标题:Learning to generalize to More: Continuous Semantic Augmentation for Neural Machine Translation

论文摘要:

大规模、高质量的双语平行数据是神经机器翻译技术成功的基石之一。但是,由于双语数据的生产成本高、生产周期长,使得以自动化手段快速产生大规模伪平行语料的数据增强技术逐渐成为最为通用的翻译质量优化手段。

目前主流的数据增强方法,如回译、引入对抗样例等,往往是在离散的句子空间中增加训练样本的数量。然而,这类方法往往存在增强样本多样性差以及容易出现语义偏差等问题。为此,论文提出了一种基于连续语义表示的数据增强模式。

 袁正-达摩院机器智能技术实验室

论文标题:Code Synonyms Do Matter: Multiple Synonyms Matching Network for Automatic ICD Coding

论文摘要:

自动编码定义为将疾病代码分配给电子病历,可以被视为多标签文本分类任务。现有的方法通常使用疾病表示的注意力机制从电子病历中匹配相关的文本片段。与这些用疾病层次结构或疾病描述对疾病表示进行建模的工作不同,我们认为疾病同义词可以提供更全面的知识。

通过将ICD疾病编码与UMLS中的概念对齐,我们收集了疾病的同义词知识。然后,我们提出了一个多同义词匹配网络来利用同义词进行更好的疾病编码表示学习。在MIMIC-III数据集上的实验表明,我们提出的方法优于以前的最好方法。

点击【阅读原文】直达直播间

0 人点赞