人工智能创新技术持续涌现,推动新一代技术浪潮向前发展,解决一个个技术难题,其中如何在资源有限的终端场景实现 AI 模型的有效部署,是加速 AI 落地的重要问题。AI 工程师们研发了各种试图缩小模型大小并保持性能的办法,例如量化和蒸馏。
目前相对成熟的模型量化方案是 INT8 量化。而为了推动低比特量化技术的发展,旷视天元 MegEngine 团队对 int4 进行了深入研究。在本届 2022 世界人工智能大会(WAIC)上,旷视天元 MegEngine 异构计算组负责人王彪,将出席 9 月 2 日的技术 Workshop,为大家分享开源深度学习框架实现支持 CUDA int4 的设计思路和踩坑经验。
(旷视科技 MegEngine 异构计算组负责人,王彪)
分享主题:深度学习框架 MegEngine CUDA int4 推理详解
分享嘉宾:王彪,旷视科技 MegEngine 异构计算组负责人。毕业于中科院计算所,研究方向为高性能计算,对 X86、Arm、OpenCL、CUDA 等多种平台具备丰富的优化经验。2018 年加入旷视,任职期间完成了 MegEngine 基于 MLIR 的即时编译技术等多项技术突破,并落地 MegEngine CUDA 推理解决方案以及多个端上优化项目。
分享时间:北京时间 9 月 2 日 18:00-19:00
【关于旷视天元 MegEngine】
旷视天元开源深度学习框架 MegEngine 是旷视自主研发的国产工业级深度学习框架,是旷视新一代 AI 生产力平台 Brain 的最核心组件,在 2020 年 3 月正式向全球开发者开源,能够帮助企业与开发者大幅节省产品从实验室原型到工业部署的流程,真正实现小时级的转化能力。MegEngine 是一个快速、可拓展、易于使用的深度学习框架,拥有以下三大关键特点:
- 训练推理一体:训练推理同一内核,模型结构、量化、前后处理、动态 shape 甚至求导均可 放入模型 进行推理,训练推理轻松对齐精度
- 超低硬件门槛:依靠算法优化各类关键资源占用,DTR 让训练显存占用量一键下降 3 倍,pushdown 内存分配算法让推理内存占用下降至极低水平
- 全平台高效推理:在 x86/Arm/CUDA/RoCM 各平台上均可体验到高性能且精度对齐的推理体验,更有 丰富的高阶用法可以优化性能、节省内存
- MegEngine 官网:https://www.megengine.org.cn/
- 项目源码:https://github.com/MegEngine
如何预约观看本场 Workshop?
第一步:扫描下方二维码,进入 WAIC 2022 云平台 3.0,填写报名信息,注册成为云观众
第二步:扫描下方「AI 开发者日 - AI 开发与工程实践 Workshop」专属活动二维码,点击右上角“预约线上参会”
9 月 2 日 18:00,通过 WAIC 2022 云平台 3.0 个人主页 “我的预约” 或扫描专属活动二维码进入直播间,收看精彩分享!