REALM 模型是由 Kelvin Guu、Kenton Lee、Zora Tung、Panupong Pasupat 和 Ming-Wei Chang 在REALM: Retrieval-Augmented Language Model Pre-Training中提出的。这是一个检索增强语言模型,首先从文本知识语料库......
Qwen2 是 Qwen 团队推出的大型语言模型新系列。之前,我们发布了 Qwen 系列,包括 Qwen-72B、Qwen-1.8B、Qwen-VL、Qwen-Audio 等。
ProphetNet 模型是由 Yu Yan, Weizhen Qi, Yeyun Gong, Dayiheng Liu, Nan Duan, Jiusheng Chen, Ruofei Zhang, Ming Zhou 于 2020 年 1 月 13 日提出的ProphetNet: Predicting Future...
免责声明: 分词器的默认行为已在 2023 年 4 月修复并更改。之前的版本在目标和源分词序列的末尾都添加了 [self.eos_token_id, self.cur_lang_code]。这是错误的,因为 NLLB 论文提到了 (第 48 页,6.1.1. 模型架构):...
MVP 模型由唐天一、李俊毅、赵新文和文继荣在《MVP: 多任务监督预训练用于自然语言生成》中提出。
MRA 模型由 Zhanpeng Zeng、Sourav Pal、Jeffery Kline、Glenn M Fung 和 Vikas Singh 在Multi Resolution Analysis (MRA) for Approximate Self-Attention中提出。
MPNet 模型由 Kaitao Song,Xu Tan,Tao Qin,Jianfeng Lu,Tie-Yan Liu 在MPNet: Masked and Permuted Pre-training for Language Understanding中提出。
MEGA 模型是由 Xuezhe Ma、Chunting Zhou、Xiang Kong、Junxian He、Liangke Gui、Graham Neubig、Jonathan May 和 Luke Zettlemoyer 在Mega: Moving Average Equipped Gated Attention...
MBart 模型是由 Yinhan Liu、Jiatao Gu、Naman Goyal、Xian Li、Sergey Edunov、Marjan Ghazvininejad、Mike Lewis、Luke Zettlemoyer 在多语言去噪预训练神经机器翻译中提出的。
M2M100 模型是由 Angela Fan、Shruti Bhosale、Holger Schwenk、Zhiyi Ma、Ahmed El-Kishky、Siddharth Goyal、Mandeep Baines、Onur Celebi、Guillaume Wenzek、Vishrav Chaudhary、Nama...