最新 最热

Transformers 4.37 中文文档(四十八)

MVP 模型由唐天一、李俊毅、赵新文和文继荣在《MVP: 多任务监督预训练用于自然语言生成》中提出。

2024-06-26
1

Transformers 4.37 中文文档(四十七)

MRA 模型由 Zhanpeng Zeng、Sourav Pal、Jeffery Kline、Glenn M Fung 和 Vikas Singh 在Multi Resolution Analysis (MRA) for Approximate Self-Attention中提出。

2024-06-26
1

Transformers 4.37 中文文档(四十四)

MEGA 模型是由 Xuezhe Ma、Chunting Zhou、Xiang Kong、Junxian He、Liangke Gui、Graham Neubig、Jonathan May 和 Luke Zettlemoyer 在Mega: Moving Average Equipped Gated Attention...

2024-06-26
1

Transformers 4.37 中文文档(四十一)

LongT5 模型是由 Mandy Guo、Joshua Ainslie、David Uthus、Santiago Ontanon、Jianmo Ni、Yun-Hsuan Sung 和 Yinfei Yang 在LongT5: Efficient Text-To-Text Transformer for Long Se...

2024-06-26
1

Transformers 4.37 中文文档(三十六)

我们介绍了 GPT-NeoX-20B,这是一个拥有 200 亿参数的自回归语言模型,经过 Pile 训练,其权重将通过宽松许可证免费向公众开放。据我们所知,这是在提交时具有公开可用权重的最大稠密自回归模型。在这项工作中,我们描述了 GPT...

2024-06-26
1

Transformers 4.37 中文文档(三十一)

EncoderDecoderModel 可以用于初始化一个序列到序列模型,其中预训练的自编码模型作为编码器,预训练的自回归模型作为解码器。

2024-06-26
1

Transformers 4.37 中文文档(二十四)

BigBird 模型是由 Zaheer, Manzil 和 Guruganesh, Guru 以及 Dubey, Kumar Avinava 和 Ainslie, Joshua 和 Alberti, Chris 和 Ontanon, Santiago 和 Pham, Philip 和 Ravula, Anirudh 和...

2024-06-26
1

Transformers 4.37 中文文档(二十三)

BertGeneration 模型是一个可以利用 EncoderDecoderModel 进行序列到序列任务的 BERT 模型,如 Sascha Rothe, Shashi Narayan, Aliaksei Severyn 在 利用预训练检查点进行序列生成任务 中提出的那样。...

2024-06-26
1

大语言模型 MOE 简明实现指南

这篇文章中,我简要实现一下大语言模型的 MOE 模块。MOE 模块位于每个GPT层中,位于注意力模块的后面,每个MOE模块包含若干个MLP模块作为专家。这些专家是稀疏的,也就是每次选择部分来调用,并不会调用全部,从而节省宝贵的算力...

2024-06-22
1

Tensors张量操作

将两个或者多个tensor进行拼接(concat),使用 torch.cat对tensor沿着一个特定的维度进行拼接。

2024-05-28
2