最新大模型推理优化进展：英伟达、阿里、腾讯和零一万物专家观点解读

大型模型的出现为新的经济增长注入了新的动力，但在训练和推理方面，它们也面临诸多挑战。这些挑战包括计算资源的巨大需求、并行化限制、模型体积和训练难度、数据质量、能耗和推理速度、算力不足、数据处理难题、思维模式转变以及高昂的成本。

为了向业界提供更多思考和借鉴的机会，我们在 AICon 全球人工智能开发与应用大会上，特别设置了“大型模型推理优化”专题。这一专题由阿里巴巴的研究员林伟老师担任出品人，旨在为观众带来更严谨、更有启发的演讲。我们邀请了四位老师进行分享，他们的精彩演讲将为大家带来深刻的思考和丰富的收获。

BladeLLM 大模型高性能部署框架

我们很荣幸地邀请到阿里云的高级算法专家李深作为首个分享的嘉宾。作为阿里云人工智能平台 PAI 模型系统优化的 Tech Leader，他在模型压缩和推理优化等方面拥有超过 10 年的丰富经验。在本次大模型推理优化专题演讲中，李深将重点介绍阿里云的 BladeLLM 大模型高性能部署框架。BladeLLM 高性能部署框架是基于阿里云人工智能平台 PAI 的技术积累和实践经验构建的。该框架不仅应对了大模型在线服务部署中的场景特性、资源规模和性能指标等更高更复杂的要求，而且兼容了大模型主流生态，提供了灵活易用的接口。

在演讲中，李深将深入探讨大模型服务部署优化面临的主要挑战，以及 BladeLLM 架构与核心优化技术。这些技术包括高性能算子与 AI 编译优化、模型压缩与算法优化、长上下文优化等，将为听众呈现出多层次联合的极致性能优化方案。通过他的分享，听众将了解大模型服务部署中的主要瓶颈与技术挑战，探索大模型部署优化的主要技术手段，并且深入了解大模型在线服务的规模化生产部署的实践经验。

当大模型推理遇到算力瓶颈，如何进行工程优化？

本专题出席的第二位嘉宾是零一万物的资深算法专家李谋。他曾历任阿里达摩院和华为云 EI 服务产品部技术专家，目前担任零一万物大模型在线推理服务负责人。在本次专题演讲中，他将探讨当大模型推理遇到算力瓶颈时，如何进行工程优化。随着大语言模型的持续发展，其参数量和序列长度呈指数级增长，因此面临的算力挑战愈发严峻。他将结合大模型的算力需求和模型结构，详细介绍零一万物在构建 Yi 模型在线推理服务过程中所采用的优化技术手段。通过他的分享，听众将了解到大模型推理算力瓶颈及主要工程优化手段，以及大模型应用场景的未来发展趋势。

TensorRT-LLM: Past, Present and Future

我们很荣幸地邀请到英伟达的高级技术总监杨军作为我们的专题演讲嘉宾。作为英伟达 AI 计算架构部门的负责人，他主要关注于 AI 系统全栈优化技术。在本次大模型推理优化专题演讲中，他将分享关于 TensorRT-LLM 的主题：“TensorRT-LLM: 过去、现在与未来”。

TensorRT-LLM 项目源起于对大语言模型推理优化的迫切需求。在演进迭代过程中，团队不断进行设计思考，探索最佳方案以满足日益增长的需求。当前设计方案的核心原则将是他演讲的重点，将会深入探讨该方案背后的理念和技术实现。此外，杨军还将简要介绍 TensorRT-LLM 的未来规划，展望该项目在大模型推理优化领域的发展方向和趋势。通过他的分享，听众将获得对 TensorRT-LLM 项目的深入了解，探索其在过去、现在和未来的演进路径和价值。

太极 Angel 助力生成式大模型高效落地

我们邀请的第四位演讲的嘉宾是腾讯高级工程师刘凯。作为腾讯混元大模型推理方向负责人，他在大模型压缩优化及推理加速领域拥有丰富经验，曾带领团队完成了大模型压缩 & 推理框架的从零到一的构建。在本次大模型推理优化专题演讲中，刘凯将分享关于“太极 Angel 助力生成式大模型高效落地”的主题。

随着生成式 AI 技术的迅速发展，模型规模不断增大，结构也从 Dense 向 MoE 进化。在这一背景下，大模型应用的性能、吞吐、成本成为关注焦点。他将介绍腾讯太极机器学习平台所研发的 Angel-HCF 推理框架和 Angel-SNIP 压缩框架，以支持混元文生文、文生图、文生视频、多模态等 AI 生成领域的优化，助力腾讯混元大模型在公司内全面铺开应用。

刘凯将深入探讨生成式 AI 技术的挑战和常用优化方法，重点介绍太极 Angel-HCF 大模型推理框架和太极 Angel-SNIP 大模型压缩框架。通过他的分享，听众将了解生成式 AI 的技术难点和优化手段，大模型推理加速的技术细节，以及大模型压缩的技术方法和后续发展。

模型腾讯优化部署框架

0 人点赞

最新大模型推理优化进展：英伟达、阿里、腾讯和零一万物专家观点解读｜AICon