最新 最热

Transformers 4.37 中文文档(五十八)

它建议对传统 Transformer 注意力进行微调,使其线性化。这样,模型可以用作循环网络:同时传递时间戳 0 和时间戳 1 的输入与在时间戳 0 传递输入,然后在时间戳 1 传递输入以及时间戳 0 的状态是相同的(见下面的示例)。...

2024-06-26
1

Transformers 4.37 中文文档(五十七)

RoCBert 模型是由 HuiSu、WeiweiShi、XiaoyuShen、XiaoZhou、TuoJi、JiaruiFang、JieZhou 在 RoCBert: Robust Chinese Bert with Multimodal Contrastive Pretraining 中提出的。它是一个经过预训练的......

2024-06-26
1

Transformers 4.37 中文文档(五十六)

RoBERTa-PreLayerNorm 模型由 Myle Ott, Sergey Edunov, Alexei Baevski, Angela Fan, Sam Gross, Nathan Ng, David Grangier, Michael Auli 在 fairseq: A Fast, Extensible T...

2024-06-26
1

Transformers 4.37 中文文档(五十五)

如果您在运行此模型时遇到任何问题,请重新安装支持此模型的最后一个版本:v4.30.0。您可以通过运行以下命令来执行:pip install -U transformers==4.30.0。

2024-06-26
1

Transformers 4.37 中文文档(五十四)

REALM 模型是由 Kelvin Guu、Kenton Lee、Zora Tung、Panupong Pasupat 和 Ming-Wei Chang 在REALM: Retrieval-Augmented Language Model Pre-Training中提出的。这是一个检索增强语言模型,首先从文本知识语料库......

2024-06-26
1

Transformers 4.37 中文文档(五十三)

Qwen2 是 Qwen 团队推出的大型语言模型新系列。之前,我们发布了 Qwen 系列,包括 Qwen-72B、Qwen-1.8B、Qwen-VL、Qwen-Audio 等。

2024-06-26
2

Transformers 4.37 中文文档(五十二)

ProphetNet 模型是由 Yu Yan, Weizhen Qi, Yeyun Gong, Dayiheng Liu, Nan Duan, Jiusheng Chen, Ruofei Zhang, Ming Zhou 于 2020 年 1 月 13 日提出的ProphetNet: Predicting Future...

2024-06-26
1

Transformers 4.37 中文文档(四十九)

免责声明: 分词器的默认行为已在 2023 年 4 月修复并更改。之前的版本在目标和源分词序列的末尾都添加了 [self.eos_token_id, self.cur_lang_code]。这是错误的,因为 NLLB 论文提到了 (第 48 页,6.1.1. 模型架构):...

2024-06-26
1

Transformers 4.37 中文文档(四十八)

MVP 模型由唐天一、李俊毅、赵新文和文继荣在《MVP: 多任务监督预训练用于自然语言生成》中提出。

2024-06-26
1

Transformers 4.37 中文文档(四十七)

MRA 模型由 Zhanpeng Zeng、Sourav Pal、Jeffery Kline、Glenn M Fung 和 Vikas Singh 在Multi Resolution Analysis (MRA) for Approximate Self-Attention中提出。

2024-06-26
1