在Qualcomm Technologies,我们一直在积极研究1,2,3并开发AI解决方案,旨在使人工智能在设备,机器,车辆和事物之间无处不在。在过去的十年中,我们对功率效率的关注已导致每瓦特AI性能的显着改善,从而带来了从设备上虚拟助手,翻译到智能安全摄像头和以安全为中心的驾驶等各种增强体验。
这些每瓦性能改进背后的推动力一直是我们在AI模型效率方面的领先研究。所谓模型效率,是指缩小模型,减少计算,减少内存流量,降低延迟并有效使用硬件的技术。传统上,我们通过诸如NeurIPS之类的学术会议上的论文和讲习班,或诸如Qualcomm Neural Processing SDK之类的产品商业化,将突破性的AI研究贡献给了社区的其他人。
现在,我们正在采取进一步措施。高通创新中心(QuIC)很高兴在GitHub上开放AI模型效率工具包(AIMET)以便与其他领先的AI研究人员合作,并为AI开发人员提供一个简单的库插件,以利用最新的模型效率性能。这个开源项目的目标是帮助生态系统朝着整数推理的方向迁移,因为我们认为这是提高每瓦性能的有效方法。
AIMET大规模节能AI
AIMET是一个支持受过训练的神经网络模型的高级量化和压缩 技术的库。量化技术试图在不牺牲模型精度的情况下,系统地减少用于权重参数和激活计算的位数,例如从32位浮点值转换为8位定点值。压缩技术试图在不牺牲模型准确性的情况下系统地删除激活节点和节点之间的连接。AIMET支持各种先进量化技术,如免费数据量化, 和压缩技术,例如空间的奇异值分解(SVD)和信道修剪。
压缩或量化减少了深度神经网络的模型大小。
手动优化神经网络无法扩展,因为这在工程资源方面既费时又昂贵。在设计AIMET时,重点是开发可以通过简单的API调用显着改善模型效率的技术。AIMET自动提高了深度学习神经网络模型的运行时性能,延迟,电源效率和内存要求,同时避免了耗时且难以重复的手动调整。该库直接插入TensorFlow和PyTorch培训框架以易于使用,允许开发人员直接从其现有管道中调用API。
AIMET包含量化和压缩技术,可轻松大规模地部署AI模型。
确保AIMET可以利用常见的硬件加速技术也很重要。AIMET旨在使神经网络在定点AI硬件加速器(例如Qualcomm Snapdragon平台上可用的加速器)上更有效地运行。
那么,为什么对AIMET感兴趣?是结果。该工具包基于Qualcomm AI Research几篇论文中发表的一些工作,包括无数据量化(DFQ)。通过一系列简单的API调用,AIMET可以将现有的32位浮点模型量化为8位定点模型,而无需牺牲很多准确性,也无需对模型进行微调。作为保持精度的一个例子,应用于多种流行网络(例如MobileNet-v2和ResNet-50)的DFQ方法导致精度下降到8位量化(一直到8位)的准确性降低了0.9%以上。任何训练数据。此外,我们在Qualcomm Hexagon DSP而不是Qualcomm Kryo CPU上运行的量化模型使速度提高了5到15倍。另外,与32位模型相比,8位模型的内存占用也小4倍。
相对于FP32模型,无数据量化使INT8推理的准确性损失极小。
同样,AIMET还可以显着压缩模型。对于ResNet-50和ResNet-18等流行模型,使用空间SVD加上通道修剪进行压缩可将MAC(乘累加)减少达50%,同时将精度保持在原始未压缩模型的1%以内。
AIMET压缩技术(空间SVD和通道修剪)可将MAC减少50%,同时将精度保持在原始模型的大约1%之内。
与常见AI开发工作流程的简单集成
Qualcomm Technologies多年来一直在为开发人员创建工具,以更有效地利用硬件-从图形加速到计算相机应用。我们知道工具适合典型的开发工作流程,抽象的复杂性,提供引人注目的收益以及易于使用的重要性。例如,Qualcomm神经处理SDK旨在帮助开发人员节省时间和精力,以优化带有Snapdragon的设备上经过训练的神经网络的性能。实际上,自2019年夏季以来,我们的量化技术已随Qualcomm Neural Processing SDK一起提供。
对于QuIC AIMET项目,开发人员将能够获取最新,最出色的库,该库应与他们现有的培训工作流程无缝集成。AIMET输入TensorFlow或PyTorch训练的模型,然后可以对其进行压缩,量化和微调。量化模型可以在具有定点硬件加速的硬件上很好地运行。例如,优化的模型以ONNX或TensorFlow输出,然后可以通过Qualcomm Neural Processing SDK在Snapdragon上运行。
我们也很高兴地报告,这些技术已经由真正的开发人员在真实的商业应用中进行了野外测试,并进行了与我们的理论基准测试结果相符的改进。例如,它们已用于优化用于生物识别,语音识别和汽车的商业模型。
通过合作推进AI模型效率研究
AI模型效率是至关重要的研究领域,在整个AI社区中具有同等重要的意义,以支持AI生态系统并大规模加速设备上AI的开发。QuIC与其他AI研究人员合作创建了这个项目,增强了我们最新的模型效率研究,并为开源社区做出了贡献。QuIC致力于定期为该项目提供前沿研究。请加入我们,共同努力提高AI模型的效率。
在Qualcomm AI Research中,我们认为研究并不意味着要留在实验室中。我们迅速实现了跨设备和跨行业的研究突破的商业化和规模化,从而缩短了实验室研究之间的时间,并提供了丰富生活的进步。AIMET的开源进一步加快了这一创新周期。
加入QuIC AIMET GitHub项目