引言
今天论文速递主要包括:弱监督文本分类(MotifClass)、自动文本分类(AdaptText)、论证充分性评估。其中弱监督文本分类提出MotifClass的新框架提高了弱监督文本分类的能力;自动文本分类主要对低资源小语种实现文本自动分类;论证充分性评估根据前提条件对结论的充分性进行评估。
论文及源码下载链接在文章后面。
正文开始
1
弱监督文本分类
弱监督文本分类,其主要目的是将文本文档分类到一组预先定义的类别中,并且这些类别只有类别表面名称。目前,大多数现有的方法主要是利用文档中的文本信息,然而,在许多领域文档中都伴随着各种类型的元数据(例如,研究论文的作者、地点和年份),这些元数据及其组合对于文本分类同样具有很大的作用。该篇文章主要是站在这个问题角度,探索使用元数据提高弱监督文本分类的能力。其主要设计思路是:通过异构信息网络对文档和元数据之间的关系进行建模,为了有效地捕获网络中的高阶结构,使用主题来描述元数据组合。最后文章提出了一个名为MotifClass的新框架,该框架(1)选择类别指示主题实例,(2)根据类别名称和指示主题实例检索并生成伪标记训练样本,(3)使用伪训练数据训练文本分类器。在真实数据集上的大量实验表明,MotifClass的性能优于现有的弱监督文本分类方法。
MotifClass模型框架
如上图所示MotifClass模型框架核心思想是使用类别名称和高阶元数据信息来创建伪标记的训练数据。为了实现这个想法,首先通过联合表示学习过程(Section 3.1)发现每个类别的类别指示性主题实例;然后,基于选定的主题实例和学习的主题感知嵌入检索并生成伪标记的训练文档(Section 3.2);最后,使用伪标记文档,我们训练文本分类器(Section 3.3)。
实验快照
在MAG-CS 和 Amazon 数据集上比较方法的性能。
2
自动文本分类
本文主要的训练样本是僧伽罗语,僧伽罗语是斯里兰卡广泛使用的语言。那么可能有人问了?既然不是中文,为什么给大家分享这边文章呢? 首先,我们做模型研究并不只是为了中、英文等主流语言,现在主流的语言大家都在做,并且都有大量的训练数据,后面相关研究肯定会慢慢的转移到小语种上面来,然后,随着互联网的发展(facebook、twitter等社交软件上就有百种语言),为对此类信息文本数据进行管理、分析和决策,同样需要对文本进行分类;最后,作为一种资源少、形态丰富的语言,需要更高的专业知识以及大量的预算和时间来开发有效的特定于任务的文本分类器,也就是说此类场景更能考验你的模型能力。所以这里给大家分享了这一篇文章,可以了解一下看看当我们遇到小语种的时候应该怎么做。
该篇文章开发一种与领域或数据集无关的自动化解决方案,以提高质量并解决僧伽罗语文本分类的当前研究空白。基于该解决方案,开发了高级开发框架和用户界面。此外,我们使用多个数据集进行跨域评估,以评估解决方案的有效性。所提出的框架在僧伽罗语文本分类方面取得了最先进的结果。
模型结构(AdaptText)
上图中。首先,在僧伽罗语文本语料库上对基本语言模型(LM)训练器进行训练。在研究中,利用僧伽罗Wikipedia文章和僧伽罗Oscar数据集构建僧伽罗文本语料库;然后将预处理后的模型在目标分类数据集的文本内容上进行再训练;在最终用户的许可下,它的数据被用于不断学习基本语言模型。这个特定于任务的语言模型用于微调分类器。由于在每个训练模块中都训练了前向模型和后向模型,因此使用集合学习器对预测进行集合。
实验快照
3
论证充分性评估
论证的前提提供证据或其他理由来支持结论。然而,所需支持的数量取决于结论的概括性、个别前提性质以及类似的情况。在论证质量研究中,如果一个论证的前提使其结论具有理性价值,则称为充分论证。之前的工作主要将充分性评估作为一个标准的文本分类问题,而没有建模前提和结论的内在关系。在本文中,假设了一个充分论证的结论可以由它的前提产生。为了研究这一假设,探索了基于大规模预训练语言模型输出的充分性评估的能力。本文提出的方法F1得分为0.885,与人类专家不相上下。
文章思路
文章通过生成结论来评估给定论证的充分性的两步方法。首先,使用预先训练的语言模型从参数的前提中生成结论,该模型针对替换参数的屏蔽结论的任务进行了微调。其次,生成的结论用于通过试验原始输入参数的八个修改版本来评估参数的充分性。该方法的概述如图 2 所示。
实验快照
1、三种方法中每种方法的100个论证的手工评价结果生成结论
2、论点充分性评估的结果,其中包括准确性、宏观精度、召回率以及f1得分。
Paper && Code
1、TILE: MotifClass: Weakly Supervised Text Classification with Higher-order Metadata Information
Code: https://github.com/yuzhimanhua/motifclass
2、TILE: AdaptText: A Novel Framework for Domain-Independent Automated Sinhala Text Classification
Code: https://github.com/yathindrakodithuwakku/AdaptText
3、TILE: Assessing the Sufficiency of Arguments through Conclusion Generation
Code: https://github.com/webis-de/argmining-21