KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache
论文地址:[2402.02750] KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache (arxiv.org)
谷歌学术被引数:6
研究机构:未知
推荐理由:五星,被huggingface transformers库使用,官方认证
主要内容:
1.key cache分成带量化数据和全精度两个组,新阶段生成的添加到全精度组,当全精度组达到上限R个token,则按channel方向量化并与量化组合并,清空全精度组。重复上述过程
2.value cache与key差不多,区别是当达到上限R,只会把全精度组最早的缓存拿出来,按token方向量化。
KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization
论文地址:https://arxiv.org/abs/2401.18079
谷歌学术被引数:18
研究机构:伯克利大学
主要内容:
1.对key做per- channel量化,并且再rope之前做量化
2.提出了一种新的非均匀量化方法,再离线校准集上可以得到很好的效果
3.在推理阶段,实现了一个自定义cuda算子做量化
4.前面的token对精度影响更大,第一个token使用高精度
5.再反量化后增加了一个Qnorm算子
6.per vector检测异常值,并对异常值做特殊处理
GEAR: An Efficient KV Cache Compression Recipe for Near-Lossless Generative Inference of LLM
论文地址:https://arxiv.org/html/2403.05527v2
谷歌学术被引数:9
研究机构:佐治亚理工学院、Intel
主要内容:
1.使用均匀量化将kv cache量化低至四比特
2.使用低秩分解方法减少量化误差
3.使用稀疏矩阵来减少异常值造成的误差
WKVQuant: Quantizing Weight and Key/Value Cache for Large Language Models Gains More
论文地址:https://arxiv.org/html/2402.12065v2
谷歌学术被引数:6
研究机构:哈尔滨工业大学(深圳)、上海人工智能实验室
主要内容:
1.提出了一种Past only quant,attention算子计算使用当前层未量化的kv和历史经过量化的kv
2.提出了两种维度的量化,基于channel和基于token
3.提出了一种cross-block的损失函数
IntactKV: Improving Large Language Model Quantization by Keeping Pivot Tokens Intact
论文地址:2403.01241 (arxiv.org)
谷歌学术被引数:1
研究机构:清华大学(深圳)、华为
主要内容:
1.发现LLM中存在一种特殊的离群值,它只存在于LLM输入的首词元[BOS]以及开头的一些特定词元上(如“,”、“.”等标点符号),并且这类离群值比特定通道上的离群值还要大得多。这类特定词元上的离群值会导致LLM将大量的自注意力得分分配到这些词元上
2.先使用全精度模型生成关键词元的无损KV cache并将其缓存下来(i.e., IntactKV),量化模型在推理时就能直接使用无损的关键词元表征,从而有效提升量化模型精度。
QAQ: Quality Adaptive Quantization for LLM KV Cache
论文地址:https://arxiv.org/abs/2403.04643
谷歌学术被引数:3
研究机构:南京大学
主要内容:
1.通过实验和数据发现key、value对量化的敏感度不同,需要对key、value开发单独的量化方法
2.提出基于attention-aware的量化方法
3.对异常值做特殊处理,异常值做高比特量化