最新 最热

HMM到CRF 理解与学习笔记

最近学习NLP总是会遇到HMM与CRF模型,一直都是一知半解,这篇博客用户整理一下两个模型的推导与学习笔记。

2021-05-13
1

DeLighT :深度和轻量化的Transformer

基于注意力的Transformer网络被广泛用于序列建模任务,包括语言建模和机器翻译。为了提高性能,模型通常通过增加隐藏层的维度来扩展,或者通过堆叠更多的Transformer块来扩展。例如,T5使用65K的隐藏层参数,GPT-3使用96个Tran...

2021-04-30
0

【源头活水】mBART:多语言翻译预训练模型

“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的...

2021-04-30
0

AI词典笔赛跑下,科大讯飞的技术流超车

日前科大讯飞2020年报正式发布,显示智慧教育业务营收取得70.68%的同比高增长。

2021-04-23
0

摆脱FM!推荐算法一次重要迭代,用户时序模型

之前我们介绍了推荐当中应用得非常广泛的FM大家族,从FM这个模型衍生出了一系列的模型,从纯FM,到AFM、FFM、DeepFM等等一系列的FM模型,最后的终极版本是xDeepFM。这个模型非常复杂,可以说是把FM魔改到了极致,今天这篇文章先...

2021-04-16
0

复述(paraphrasing):一种简单暴力的预训练方式

Mike Lewis, Marjan Ghazvininejad, Gargi Ghosh, Armen Aghajanyan, Sida Wang, Luke Zettlemoyer

2021-04-13
0

机器翻译界的BERT:可快速得到任意机器翻译模型的mRASP

今天给大家介绍EMNLP2020的一篇关于多语言翻译新范式的工作multilingual Random Aligned Substitution Pre-training (mRASP)[1],核心思想就是打造“机器翻译界的BERT”,通过预训练技术再在具体语种上微调即可达到领先...

2021-04-08
0

LSTM之父重提30年前的「快速权重存储系统」:线性Transformer只是它的一种变体

Transformer 在深度学习中占据主导地位,但二次存储和计算需求使得 Transformer 的训练成本很高,而且很难使用。许多研究都尝试线性化核心模块:以 Performer 为例,使用带核的注意力机制。然而,这种方法还存在很多缺点,例如它...

2021-03-30
0

神经机器翻译的Subword技术

神经网络机器翻译(NMT)是目前最先进的机器翻译技术,通过神经网络的处理可以产生流畅的翻译。然而非机器翻译模型受到词汇外问题和罕见词问题的影响,导致翻译质量下降。OOV词是语料库中未出现的词,而rare词是语料库中出现...

2021-03-25
0

经典Seq2Seq与注意力Seq2Seq模型结构详解

在本文中,我们将分析一个经典的序列对序列(Seq2Seq)模型的结构,并演示使用注意解码器的优点。这两个概念将为理解本文提出的Transformer奠定基础,因为“注意就是您所需要的一切”。...

2021-03-10
0