最强的数据扩增方法竟然是添加标点符号?

2021-09-08 14:59:58 浏览数 (2)

今天的这篇文章源自于EMNLP 2021 Findings,论文标题为《AEDA: An Easier Data Augmentation Technique for Text Classification》。实际上用一句话即可总结全文:对于文本分类任务来说,在句子中插入一些标点符号是最强的数据扩增方法

AEDA Augmentation

读者看到这肯定会想问:添加哪些标点符号?加多少?对于这些问题,原论文给出了非常详细的解答,同时这部分也是论文唯一有价值的地方,其他部分的文字叙述基本是在说一些基础概念,或者前人工作等等

首先,可选的标点符号有六个:{".", ";", "?", ":", "!", ","}。其次,设添加句子标点的个数为

nin [1, frac{1}{3}l]

其中,l为句子长度。下面给出几个扩增例子

begin{array}{cc} hline textbf{Original} & text{a sad , superior human comedy played out on the back roads of life .} \ hline textbf{Aug 1} & text{a sad , superior human comedy played out on the back roads ; of life ; .}\ hline textbf{Aug 2} & text{a , sad . , superior human ; comedy . played . out on the back roads of life .}\ hline textbf{Aug 3} & text{: a sad ; , superior ! human : comedy , played out ? on the back roads of life .}\ hline end{array}

光说不练假把式,效果究竟几何呢?原论文做了大量文本分类任务的实验,并且与EDA方法进行了比较,而且有意思的是,AEDA在github上的repo是fork自EDA论文的repo,怎么有种杀鸡取卵的感觉

首先看下面一组图,作者在5个数据集上进行了对比(模型为RNN)

在BERT上的效果如下表所示,为什么上面都测了5个数据集,而论文中对BERT只展示了2个数据集的结果呢?我大胆猜测是因为在其他数据集上的效果不太好

begin{array}{c|cc} text{Model} & text{SST2} & text{TREC} \ hline text{BERT} & 91.10 & 97.00\ hline text{ EDA} & 90.99 & 96.00\ hline text{ AEDA} & pmb{91.76} & pmb{97.20}\ end{array}
Reference
  • AEDA: An Easier Data Augmentation Technique for Text Classification

0 人点赞