最新 最热

Transformers 4.37 中文文档(六十四)

YOSO 模型提出于You Only Sample (Almost) Once: Linear Cost Self-Attention Via Bernoulli Sampling

2024-06-26
1

Transformers 4.37 中文文档(六十三)

XLM-RoBERTa-XL 模型是由 Naman Goyal、Jingfei Du、Myle Ott、Giri Anantharaman、Alexis Conneau 在用于多语言掩码语言建模的更大规模 Transformer中提出的。

2024-06-26
1

Transformers 4.37 中文文档(六十二)

**免责声明:**如果您看到异常情况,请提交GitHub 问题并指定@patrickvonplaten

2024-06-26
1

Transformers 4.37 中文文档(六十一)

X-MOD 模型是由 Jonas Pfeiffer、Naman Goyal、Xi Lin、Xian Li、James Cross、Sebastian Riedel 和 Mikel Artetxe 在Lifting the Curse of Multilinguality by Pre-training Modular ...

2024-06-26
1

Transformers 4.37 中文文档(六十)

T5v1.1 是由 Colin Raffel 等人在google-research/text-to-text-transfer-transformer存储库中发布的。这是原始 T5 模型的改进版本。这个模型是由patrickvonplaten贡献的。原始代码可以在这里找到。...

2024-06-26
1

Transformers 4.37 中文文档(五十九)

SwitchTransformers 模型是由 William Fedus、Barret Zoph 和 Noam Shazeer 在Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity中提...

2024-06-26
1

Transformers 4.37 中文文档(五十八)

它建议对传统 Transformer 注意力进行微调,使其线性化。这样,模型可以用作循环网络:同时传递时间戳 0 和时间戳 1 的输入与在时间戳 0 传递输入,然后在时间戳 1 传递输入以及时间戳 0 的状态是相同的(见下面的示例)。...

2024-06-26
1

Transformers 4.37 中文文档(五十七)

RoCBert 模型是由 HuiSu、WeiweiShi、XiaoyuShen、XiaoZhou、TuoJi、JiaruiFang、JieZhou 在 RoCBert: Robust Chinese Bert with Multimodal Contrastive Pretraining 中提出的。它是一个经过预训练的......

2024-06-26
1

Transformers 4.37 中文文档(五十六)

RoBERTa-PreLayerNorm 模型由 Myle Ott, Sergey Edunov, Alexei Baevski, Angela Fan, Sam Gross, Nathan Ng, David Grangier, Michael Auli 在 fairseq: A Fast, Extensible T...

2024-06-26
1

Transformers 4.37 中文文档(五十五)

如果您在运行此模型时遇到任何问题,请重新安装支持此模型的最后一个版本:v4.30.0。您可以通过运行以下命令来执行:pip install -U transformers==4.30.0。

2024-06-26
1