大语言模型--KV Cache量化论文

2024-07-18 17:20:41 浏览数 (4)

KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache

论文地址:[2402.02750] KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache (arxiv.org)

谷歌学术被引数:6

研究机构:未知

推荐理由:五星,被huggingface transformers库使用,官方认证

主要内容:

1.key cache分成带量化数据和全精度两个组,新阶段生成的添加到全精度组,当全精度组达到上限R个token,则按channel方向量化并与量化组合并,清空全精度组。重复上述过程

2.value cache与key差不多,区别是当达到上限R,只会把全精度组最早的缓存拿出来,按token方向量化。

KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization

论文地址:https://arxiv.org/abs/2401.18079

谷歌学术被引数:18

研究机构:伯克利大学

主要内容:

1.对key做per- channel量化,并且再rope之前做量化

2.提出了一种新的非均匀量化方法,再离线校准集上可以得到很好的效果

3.在推理阶段,实现了一个自定义cuda算子做量化

4.前面的token对精度影响更大,第一个token使用高精度

5.再反量化后增加了一个Qnorm算子

6.per vector检测异常值,并对异常值做特殊处理

GEAR: An Efficient KV Cache Compression Recipe for Near-Lossless Generative Inference of LLM

论文地址:https://arxiv.org/html/2403.05527v2

谷歌学术被引数:9

研究机构:佐治亚理工学院、Intel

主要内容:

1.使用均匀量化将kv cache量化低至四比特

2.使用低秩分解方法减少量化误差

3.使用稀疏矩阵来减少异常值造成的误差

WKVQuant: Quantizing Weight and Key/Value Cache for Large Language Models Gains More

论文地址:https://arxiv.org/html/2402.12065v2

谷歌学术被引数:6

研究机构:哈尔滨工业大学(深圳)、上海人工智能实验室

主要内容:

1.提出了一种Past only quant,attention算子计算使用当前层未量化的kv和历史经过量化的kv

2.提出了两种维度的量化,基于channel和基于token

3.提出了一种cross-block的损失函数

IntactKV: Improving Large Language Model Quantization by Keeping Pivot Tokens Intact

论文地址:2403.01241 (arxiv.org)

谷歌学术被引数:1

研究机构:清华大学(深圳)、华为

主要内容:

1.发现LLM中存在一种特殊的离群值,它只存在于LLM输入的首词元[BOS]以及开头的一些特定词元上(如“,”、“.”等标点符号),并且这类离群值比特定通道上的离群值还要大得多。这类特定词元上的离群值会导致LLM将大量的自注意力得分分配到这些词元上

2.先使用全精度模型生成关键词元的无损KV cache并将其缓存下来(i.e., IntactKV),量化模型在推理时就能直接使用无损的关键词元表征,从而有效提升量化模型精度。

QAQ: Quality Adaptive Quantization for LLM KV Cache

论文地址:https://arxiv.org/abs/2403.04643

谷歌学术被引数:3

研究机构:南京大学

主要内容:

1.通过实验和数据发现key、value对量化的敏感度不同,需要对key、value开发单独的量化方法

2.提出基于attention-aware的量化方法

3.对异常值做特殊处理,异常值做高比特量化

1 人点赞