RoBERTa在SuperGLUE得分逼近人类，甩baseline十多个点

大数据文摘出品

作者：宁静、曹培信

7月30日，文摘菌曾报道过，被谷歌XLNet全面刷爆的BERT，被Facebook升级后，变身"Robustly optimized BERT approach"——强力优化BERT方法，重新称霸GLUE、SQuAD和RACE三个排行榜。

在RACE测试集上的结果显示，RoBERTa的Accyracy相比BERT(large)提高了10个百分点，相比XLNet(large)提高了2个百分点。

现在，Facebook AI又将RoBERTa提交到了SuperGLUE，榜单显示RoBERTa已经领先Bert 15个百分点，表现直逼人类。

SuperGLUE在GLUE设计的基础上，采用了一系列更加困难的语言理解任务，除了共同任务识别文本蕴涵（RTE）和 Winograd 模式挑战赛（WSC）外，还添加了常识推理和词义消除等任务，上表中给出的其他测试数据集包括：

从SuperGLUE排行榜上看，RoBERTa的得分距离人类只有5.2分，但是NYU数据科学中心助理教授Sam Bowman在其推特上，关于这一排行榜RoBERTa直逼人类的表现也发表了看法。

SuperGLUE代表的是我们需要处理的35个任务中最难的几个。而对于35个中的大多任务，BERT 本身的性能就已经快接近极限了。

还有几点需要注意:

RTE模型在downward monotone inferences仍然表现较差：例如，它倾向于假设“所有的狗都喜欢抓它们的耳朵”。“所有动物都喜欢搔耳朵。”

Sam Bowman认为，他对觉得RoBERTa有个明显的天花板，而我们对于人类表现有一个比较低的估计，他敢打赌，接下来的5到10个百分点将变得相当难以突破。

让我们期待通过算力数据以及大模型（Transformer），人类到底能够将NLP推到什么程度吧！

0 人点赞