预训练小模型也能拿下13项NLP任务,ALBERT三大改造登顶GLUE基准
它对BERT进行了三个改造:
1)词嵌入向量参数的因式分解 Factorized embedding parameterization
代码语言:javascript复制 O(V * H) to O(V * E E * H)
如以ALBert_xxlarge为例,V=30000, H=4096, E=128
那么原先参数为V * H= 30000 * 4096 = 1.23亿个参数,现在则为V * E E * H = 30000*128 128*4096 = 384万 52万 = 436万,
词嵌入相关的参数变化前是变换后的28倍。
2)跨层参数共享 Cross-Layer Parameter Sharing
代码语言:javascript复制 参数共享能显著减少参数。共享可以分为全连接层、注意力层的参数共享;注意力层的参数对效果的减弱影响小一点。
3)段落连续性任务 Inter-sentence coherence loss.
ALBERT 模型在 GLUE、RACE 和 SQuAD 基准测试上都取得了新的 SOTA 效果,并且参数量还少于 BERT-large。要知道,目前 BERT-Large 已经在 GLUE 基准排到了 16 名,而 ALBERT 这个新模型竟然以更少的参数量荣登榜首。ALBERT 已经投递到了 ICLR 2020,目前正处于双盲审阶段。
论文地址:https://openreview.net/pdf?id=H1eA7AEtvS
发布计划 Release Plan
1、albert_base, 参数量12M, 层数12,10月5号
2、albert_large, 参数量18M, 层数24,10月13号
3、albert_xlarge, 参数量59M, 层数24,10月6号
4、albert_xxlarge, 参数量233M, 层数12,10月7号(效果最佳的模型)
训练语料
40g中文语料,超过100亿汉字,包括多个百科、新闻、互动社区、小说、评论。
模型性能与对比