torch_字节宝

Transformers 4.37 中文文档（四十八）

MVP 模型由唐天一、李俊毅、赵新文和文继荣在《MVP: 多任务监督预训练用于自然语言生成》中提出。

2024-06-26

Transformers 4.37 中文文档（四十七）

MRA 模型由 Zhanpeng Zeng、Sourav Pal、Jeffery Kline、Glenn M Fung 和 Vikas Singh 在Multi Resolution Analysis (MRA) for Approximate Self-Attention中提出。

size torch 模型配置索引

2024-06-26

Transformers 4.37 中文文档（四十四）

MEGA 模型是由 Xuezhe Ma、Chunting Zhou、Xiang Kong、Junxian He、Liangke Gui、Graham Neubig、Jonathan May 和 Luke Zettlemoyer 在Mega: Moving Average Equipped Gated Attention...

配置索引 size torch 模型

2024-06-26

Transformers 4.37 中文文档（四十一）

LongT5 模型是由 Mandy Guo、Joshua Ainslie、David Uthus、Santiago Ontanon、Jianmo Ni、Yun-Hsuan Sung 和 Yinfei Yang 在LongT5: Efficient Text-To-Text Transformer for Long Se...

torch 模型配置索引 size

2024-06-26

Transformers 4.37 中文文档（三十六）

我们介绍了 GPT-NeoX-20B，这是一个拥有 200 亿参数的自回归语言模型，经过 Pile 训练，其权重将通过宽松许可证免费向公众开放。据我们所知，这是在提交时具有公开可用权重的最大稠密自回归模型。在这项工作中，我们描述了 GPT...

torch 模型配置索引 size

2024-06-26

Transformers 4.37 中文文档（三十一）

EncoderDecoderModel 可以用于初始化一个序列到序列模型，其中预训练的自编码模型作为编码器，预训练的自回归模型作为解码器。

torch 模型配置索引 size

2024-06-26

Transformers 4.37 中文文档（二十四）

BigBird 模型是由 Zaheer, Manzil 和 Guruganesh, Guru 以及 Dubey, Kumar Avinava 和 Ainslie, Joshua 和 Alberti, Chris 和 Ontanon, Santiago 和 Pham, Philip 和 Ravula, Anirudh 和...

torch 模型配置索引 size

2024-06-26