最新 最热

使用Python实现深度学习模型:智能广告创意生成

在数字营销领域,广告创意的质量直接影响广告的效果和转化率。随着人工智能技术的发展,深度学习在广告创意生成方面展现出了巨大的潜力。本文将介绍如何使用Python实现一个智能广告创意生成模型,详细讲解数据准备、模型构...

2024-09-28
0

大语言模型--开源数据集

Huggingface开源大模型排行榜: Open LLM Leaderboard - a Hugging Face Space by HuggingFaceH4

2024-09-18
1

Mixtral混合专家模型

模型地址:mistralai (Mistral AI_) (huggingface.co),需要在这个网页上申请权限(地址填国外)

2024-08-15
0

大语言模型--KV Cache量化论文

论文地址:[2402.02750] KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache (arxiv.org)

2024-07-18
0

大语言模型--Llama3 token结束符问题

结束符是一个句子(prompt)的结尾标记,再大语言模型中,句子中的每个单词都会被编码成数字才能被模型处理。同样的,结尾标记也会被编码成一个数字。再Meta给的源码中,Llama3的结束符是-1(pad_id=-1,参考llama3/llama/tokenizer....

2024-07-09
0

大语言模型--Llama3新特性

词表大小从32000增加到128256,这也是导致参数量从7B增至8B的主要原因。更大的词表使得模型涵盖的语言更多、更加通用

2024-05-29
0

使用 Transformers 量化 Meta AI LLaMA2 中文版大模型

本篇文章聊聊如何使用 HuggingFace 的 Transformers 来量化 Meta AI 出品的 LLaMA2 大模型,让模型能够只使用 5GB 左右显存就能够运行。

2023-07-22
0

《Transformer Quality in Linear Time》论文解读

原本的Transformer的Block遵循如下的设计范式:MHSA(多头自注意力)+ 一层或者两层的FFN(全连接层),如下图所示。我们只考虑FFN的话,其数学表达式如下:T表示句子长度,d表示词向量维度(也表示模型隐藏层维度),e表示expanded intermed...

2023-06-24
0