LongT5 模型是由 Mandy Guo、Joshua Ainslie、David Uthus、Santiago Ontanon、Jianmo Ni、Yun-Hsuan Sung 和 Yinfei Yang 在LongT5: Efficient Text-To-Text Transformer for Long Se...
Hugo Touvron、Thibaut Lavril、Gautier Izacard、Xavier Martinet、Marie-Anne Lachaux、Timothée Lacroix、Baptiste Rozière、Naman Goyal、Eric Hambro、Faisal Azhar、Aurelien R...
Jukebox 模型在 Jukebox: A generative model for music 中由 Prafulla Dhariwal, Heewoo Jun, Christine Payne, Jong Wook Kim, Alec Radford, Ilya Sutskever 提出。它引入了一个生成音乐模型......
OpenAI GPT-2 模型是由 Alec Radford、Jeffrey Wu、Rewon Child、David Luan、Dario Amodei 和 Ilya Sutskever 在 OpenAI 提出的,它是一个因果(单向)变压器,使用语言建模在一个大约 40GB 的文本数据语料库上进行预训练。...
我们介绍了 GPT-NeoX-20B,这是一个拥有 200 亿参数的自回归语言模型,经过 Pile 训练,其权重将通过宽松许可证免费向公众开放。据我们所知,这是在提交时具有公开可用权重的最大稠密自回归模型。在这项工作中,我们描述了 GPT...
FNet 模型由 James Lee-Thorp, Joshua Ainslie, Ilya Eckstein, Santiago Ontanon 在 FNet: Mixing Tokens with Fourier Transforms 中提出。该模型用傅立叶变换替换了 BERT 模型中的自注意力层,仅返回变换的实部......
FLAN-T5 发布在论文扩展指令微调语言模型中 - 这是 T5 的增强版本,已在多种任务中进行微调。
EncoderDecoderModel 可以用于初始化一个序列到序列模型,其中预训练的自编码模型作为编码器,预训练的自回归模型作为解码器。
DeBERTa 模型是由 Pengcheng He、Xiaodong Liu、Jianfeng Gao、Weizhu Chen 在DeBERTa: Decoding-enhanced BERT with Disentangled Attention中提出的,它基于 2018 年发布的 Google 的 BERT 模型和......
CPM 模型是由张政彦、韩旭、周浩、柯培、顾宇贤、叶德明、秦宇佳、苏玉生、季浩哲、关健、齐凡超、王晓智、郑亚楠、曾国阳、曹焕琦、陈胜奇、李代轩、孙振波、刘知远、黄民烈、韩文涛、唐杰、李娟姿、朱小燕、孙茂松...