海量中文语料上预训练ALBERT模型:参数更少,效果更好

2019-10-28 17:27:48 浏览数 (3)

ALBERT模型是BERT的改进版,与最近其他State of the art的模型不同的是,这次是预训练小模型,效果更好、参数更少。

预训练小模型也能拿下13项NLP任务,ALBERT三大改造登顶GLUE基准

它对BERT进行了三个改造:

1)词嵌入向量参数的因式分解 Factorized embedding parameterization

代码语言:javascript复制
 O(V * H) to O(V * E   E * H)
 
 如以ALBert_xxlarge为例,V=30000, H=4096, E=128
   
 那么原先参数为V * H= 30000 * 4096 = 1.23亿个参数,现在则为V * E   E * H = 30000*128 128*4096 = 384万   52万 = 436万,
   
 词嵌入相关的参数变化前是变换后的28倍。

2)跨层参数共享 Cross-Layer Parameter Sharing

代码语言:javascript复制
 参数共享能显著减少参数。共享可以分为全连接层、注意力层的参数共享;注意力层的参数对效果的减弱影响小一点。

3)段落连续性任务 Inter-sentence coherence loss.

ALBERT 模型在 GLUE、RACE 和 SQuAD 基准测试上都取得了新的 SOTA 效果,并且参数量还少于 BERT-large。要知道,目前 BERT-Large 已经在 GLUE 基准排到了 16 名,而 ALBERT 这个新模型竟然以更少的参数量荣登榜首。ALBERT 已经投递到了 ICLR 2020,目前正处于双盲审阶段。

论文地址:https://openreview.net/pdf?id=H1eA7AEtvS

发布计划 Release Plan

1、albert_base, 参数量12M, 层数12,10月5号

2、albert_large, 参数量18M, 层数24,10月13号

3、albert_xlarge, 参数量59M, 层数24,10月6号

4、albert_xxlarge, 参数量233M, 层数12,10月7号(效果最佳的模型)

训练语料

40g中文语料,超过100亿汉字,包括多个百科、新闻、互动社区、小说、评论。

模型性能与对比

模型参数和配置


0 人点赞