大语言模型 (LLM) 压缩一直备受关注,后训练量化(Post-training Quantization) 是其中一种常用算法,但是现有 PTQ 方法大多数都是 integer 量化,且当比特数低于 8 时,量化后模型的准确率会下降非常多。想较于 Integer (INT)...
量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者,曾荣获AMMA优秀品牌力、优...
深度神经网络在各种应用中取得了显著的成功,包括图像分类、目标检测和语义分割。然而,将它们部署在边缘设备(如移动电话、智能相机和无人机)上却是一项重大的挑战,因为这些设备通常具有有限的计算和内存资源。这些设备通常...
未来产业是指引领重大变革的颠覆性技术及其新产品、新业态所形成的产业。2023年7月7日全球数字经济大会闭幕式上,腾讯研究院联合腾讯企鹅有调、清华大学二十国集团创业研究中心发布的《数字化转型指数报告 2023》,在历...
来自Transformer家族的预训练生成模型,通常被称为GPT或OPT,已经在复杂语言建模任务中取得了突破性的性能,引起了广泛的学术和实际兴趣。它们的一个主要障碍是计算和存储成本,这些成本在已知模型中排名最高。例如,性能最好...
多年来,神经网络(NN)中的参数数量不断增加,这使得基于NN的应用在计算资源受限的设备上部署变得不切实际,例如移动设备。许多研究旨在设计计算效率更高的NN。...
深度学习模型,特别是那些具有大量参数的模型,在资源受限环境中的部署几乎是不可能的。所以就出现了两种流行的技术,量化和蒸馏,它们都是可以使模型更加轻量级,而不会对性能造成太大影响。但是它们需要什么,它们又如何比较呢...
现代推荐系统主要是通过在同一空间中构建查询emb和item的emb,然后通过大规模检索,在给定查询emb的情况下进行近似近邻搜索以选择最佳item。本文提出了一种新的生成检索方法Transformer Index for GEnerative Recommende...