AACL2022 | “讲好中国故事” ! 一种基于数据增强的中文故事生成框架(竟然有源码)

2022-12-06 14:51:02 浏览数 (1)

引言

 故事生成旨在基于特定输入生成较长的叙述内容,在自然语言处理中也是一项比较有挑战性的任务。之前看过的关于故事生成的模型大多都是针对英文的,而对于中文故事生成模型相对比较少。好巧不巧今天就遇到了,「今天给家分享的这篇文章厉害了,实验结果显示,本文模型框架优于最先进的中文故事生成模型」

背景介绍

 故事生成是一项具有挑战性的任务,主要是因为端到端神经网络模型在长文本生成过程中难以保持逻辑连贯性。「这些挑战在中文故事生成任务中更加突出,主要是因为缺少用于字符分隔的显式分隔符导致歧义程度增加」。另一方面,最近的研究工作旨在通过寻求更有效的框架来改进长文本生成,亦或者通过预培训和额外知识的注入的方式来增强现有框架。

 然而,「本文观察发现当前的生成模型仍然难以生成流畅和连贯的中文故事,这可能是由于在书面中对中文特征捕获效率低下的结果」。例如,汉字有一系列的形态学解析策略,例如“小心地滑”可以理解为“小心地滑”(小心湿地板)或“小心地滑”(小心滑动),其含义高度依赖于上下文。这可能会导致重要的句子角色,如主语、谓语和宾语,难以被神经模型识别和处理。此外,当神经网络学习一个话语的语义时,同义表达式可能会导致混淆,损害生成模型的鲁棒性,例如“游历”、“周游”和“游览”是不同的中文单词,但都表示“旅行”。因此,「我们提出训练神经网络学习上下文中包含的语义级特征,而不是字符的低级特征」。为此,本文提出了一个新的数据增强故事生成框架,如下图所示。

模型框架

依赖标记

语义去噪

生成器LongLM

「本文使用一种中文长文本预训练语言模型(LongLM)作为我们框架的基础生成器」。它由基于Transformer的神经块组成,使用编码器-解码器架构来生成故事。训练过程如下:

 其中Encoder和Decoder的最大序列长度都设置为512。然后用标准交叉熵损失对LongLM进行微调。

实验快照

 1、如下表所示,本文提出的模型在很大程度上超过了所有的对比基线。

 2、下表的消融实验,观察到依赖和语义的增强特征捕获大大改善了原有神经生成器,并且结合这两种方法进一步提高了性能。

论文&&源码

Paper:https://arxiv.org/pdf/2210.10618.pdf

Code:https://github.com/hehedaozuiteng/chinese-story-generation

0 人点赞