深度学习能学会幽默吗？TED视频可能有点难

作者 | 姜蔚蔚 编辑 | 唐里

论文标题：UR-FUNNY: A Multimodal Language Dataset forUnderstanding Humor

作者：Md Kamrul Hasan, Wasifur Rahman, Amir Zadeh,Jianyuan Zhong, Md Iftekhar Tanveer, Louis-Philippe Morency, Mohammed (Ehsan) Hoque

下载链接：https://arxiv.org/abs/1904.06618

发表时间：2019年4月14日

EMNLP2019论文

幽默是一种复杂而富有创建性的交际行为，产生于语言、语音语调、手势、身体姿态等多模态的行为中。幽默检测已经是自然语言处理所关注的一个问题，在过去也有一些英语的幽默语料。为了丰富这个问题的研究，研究人员们收集和提出了越来越多的数据集，例如俄语的幽默语料[1]。

这篇论文最大的贡献在于提出了一个名为UR-FUNNY的多模态数据集，包含了文本、音频和视频，为理解使用无表情幽默的多模式语言打开了大门。与以往的数据集相比，UR-FUNNY是第一个同时涵盖了文本、音频和视频的数据集（见表1）。这篇论文介绍了UR-FUNNY的来源、数据集描述、特征的提取并给出了基准模型分类的实验结果。图1展示了UR-FUNNY中的一个实例。

表1. UR-FUNNY与已有的幽默检测数据集的对比，其中#Pos和#Neg分别代表正负样本的数量，Mod一栏t代表text，a代表audio，v代表video。

图1. UR-FUNNY中的一个例子。

数据来源

UR-FUNNY来自于公开的TED演讲。使用TED演讲的素材在自然语言处理相关的问题中有诸多好处：演讲人和话题多样，具有手动生成的字幕和听众标记，特别是利用laughter标记可以识别笑点所在的位置，从而标注出幽默所对应的素材片段。

这篇论文使用了1866个TED英文演讲的视频及它们的字幕，这些视频包含了1741个演讲者和417个话题。基于laughter标记，作者们提取了8257个幽默片段，并且另外随机挑选了8257个非幽默片段。

数据集描述

表2和图2中给出了UR-FUNNY的一些统计特征。幽默和非幽默样本的统计特征没有明显的差别，因此无法通过简单的度量指标进行分类。

表2. UR-FUNNY数据集统计指标。

图2. UR-FUNNY数据统计描述。

作者们也将数据集划分成了训练集，验证集和测试集，统计指标见表3。

表3. UR-FUNNY数据集中训练集、验证集和测试集的统计。

特征提取

作者们采取了现有的成熟工具包对三个维度的原始语料进行了特征提取：

（1）文本：使用了Glove word embedding [2] 和P2FA forcedalignment model [3]；

（2）音频：使用了COVAREP软件[4]提取了81个特征；

（3）视频：使用了OpenFace面部行为分析工具[5]。

模型和实验

作者们基于基于记忆融合网络（Memory Fusion Network, MFN）[6]进行改进并提出了一个名为上下文记忆融合网络（Contextual Memory Fusion Network, C-MFN）的基准模型。C-MFN由三部分组成：

（1）单模态上下文网络：如图3所示，每一个模式的信息通过M个长短时记忆网络进行编码，输出记作H；

（2）多模态上下文网络：如图4所示，利用自注意力机制从单模态信息H中提取出多模态信息

；

（3）记忆融合网络：如图5所示，使用了基于H和

进行参数初始化的方式和标准的记忆融合网络模型。

图3. 单模态上下文网络的结构。

图4. 多模态上下文网络的结构。

图5. 记忆融合网络及初始化。

在C-MFN的基础上，作者们还考察了只使用笑点语句的C-MFN (P)和只使用上下文语句的C-MFN (C)。实验中，作者们使用了不同程度的输入组合：T（只有文本），T V（文本视频），T A（文本音频），A V（音频视频），T A V（文本音频视频）。除了C-MFN的不同变种之间的比较，作者们还尝试了一个随机森林分类器，作为非神经网络结构的代表。

结果和讨论

不同输入组合下C-MFN的分类准确率见表4.当所有模式的数据都输入时，C-MFN取得了最高的65.23%的准确率，这一结果高于随机森林（57.78%），但还远远低于人类的表现（82.5%）。

表4. 不同输入组合下，不同C-MFN的分类准确率。

结论

这篇论文为幽默检测问题贡献了一个包含了文本、音频和视频的多模态数据集，并且提出了一个名为上下文记忆融合网络的基准分类模型。实验结果表明使用多模态的数据能够更准确地检测幽默，而且笑点和上下文在理解幽默的过程中都很重要。

同时这篇论文的结果也指出，这个上下文记忆融合网络的识别结果距离人类表现还有一些差距，有待后续的研究在这个数据集上提出更好的模型。

参考

[1] Blinov V,Bolotova-Baranova V, Braslavski P. Large Dataset and Language Model Fun-Tuningfor Humor Recognition[C]//Proceedings of the 57th Annual Meeting of theAssociation for Computational Linguistics. 2019: 4027-4032.

[2] Pennington J,Socher R, Manning C. Glove: Global vectors for wordrepresentation[C]//Proceedings of the 2014 conference on empirical methods innatural language processing (EMNLP). 2014: 1532-1543.

[3] Yuan J, LibermanM. Speaker identification on the SCOTUS corpus[J]. Journal of the AcousticalSociety of America, 2008, 123(5): 3878.

[4] Degottex G, KaneJ, Drugman T, et al. COVAREP—A collaborative voice analysis repository forspeech technologies[C]//2014 ieee international conference on acoustics, speechand signal processing (icassp). IEEE, 2014: 960-964.

[5] Baltrušaitis T,Robinson P, Morency L P. Openface: an open source facial behavior analysistoolkit[C]//2016 IEEE Winter Conference on Applications of Computer Vision(WACV). IEEE, 2016: 1-10.

[6] Zadeh A, Liang PP, Mazumder N, et al. Memory fusion network for multi-view sequentiallearning[C]//Thirty-Second AAAI Conference on Artificial Intelligence. 2018.

dataset memory network

0 人点赞