论文地址:[2402.02750] KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache (arxiv.org)
结束符是一个句子(prompt)的结尾标记,再大语言模型中,句子中的每个单词都会被编码成数字才能被模型处理。同样的,结尾标记也会被编码成一个数字。再Meta给的源码中,Llama3的结束符是-1(pad_id=-1,参考llama3/llama/tokenizer....
注意两条指令获得的 CUDA 版本可能并不一致,这里以 nvcc -V 显示的版本为准,具体原因暂不在本文解释。
Neural networks can be constructed using the torch.nn package.