今日,NVIDIA 正式宣布一项令人振奋的消息:TensorRT-LLM(大型语言模型加速器)正式开源!这是一个重大突破,将为那些想要在NVIDIA GPU上加速和优化最新LLMs的推理性能的人们带来福音。让我们一起深入了解这个激动人心的开源项目,探索它的意义和应用。
首先,让我们明白,什么是LLMs?LLMs,即大型语言模型,已经改变了人工智能领域,为我们提供了前所未有的方式来与数字世界互动。但是,正如很多人已经意识到的,LLMs 有个问题——它们实在太大了。这不仅让它们运行缓慢,还让成本飙升。
为了应对这一挑战,出现了各种各样的优化技术,从模型优化到运行时优化,数不胜数。这些技术包括内核融合、量化、C 实现、KV缓存、连续的批处理等等。但是,选择适合自己应用的技术并不容易,因为它们之间的互动复杂,有时甚至不兼容。
NVIDIA 带来了TensorRT-LLM,这是一个全面的库,用于编译和优化LLMs以进行推理。TensorRT-LLM不仅包含了所有这些优化,还提供了一个直观的Python API,可以帮助你定义和构建新的模型。
大家还记得NVIDIA TensorRT Hackathon 2023生成式AI模型优化赛吗?这是一场充满创新和激情的竞赛,旨在鼓励参赛者优化大型语言模型的推理性能。复赛的赛题要求参赛者自选大型语言模型,同时鼓励使用TensorRT-LLM进行模型推理优化,以探索这个开源库为大模型推理所准备的各种新特性。
这场比赛在前期引起了广泛的关注和热情,但由于在比赛结束时,TensorRT-LLM还没有开源,所以获奖队伍的比赛代码一直无法公开分享。然而,今天,我们终于迎来了比赛代码全面开源的时刻,这意味着更多人将能够受益于这些创新性的解决方案。
让我们展示一下优秀团队的比赛代码库:
无声优化者——完成对 Qwen-7B-Chat 实现推理加速。在开发过程中,克服了 Hugging Face 转 Tensor-LLM、首次运行报显存分配错误、模型 logits 无法对齐等挑战与困难,最终在优化效果上,吞吐量最高提升了 4.57 倍,生成速度最高提升了 5.56 倍。
https://github.com/Tlntin/Qwen-7B-Chat-TensorRT-LLM
NaN-emm——使用 TensorRT-LLM 实现 RPTQ 量化。RPTQ 是一种新颖的基于重排序的量化方法,同时量化了权重与中间结果(W8A8),加速了计算。
https://github.com/yuanjiechen/trt_final
更多获奖队伍的比赛代码可以访问这里获得:
https://github.com/NVIDIA/trt-samples-for-hackathon-cn/blob/master/Hackathon2023/README.md
现在,让我们强调一下今日开源的重要性。TensorRT-LLM 是一个开源库,这意味着它对所有人免费开放,任何人都可以从 /NVIDIA/TensorRT-LLM 的GitHub仓库中获取它。这为开发者、科研人员和AI爱好者提供了一个强大的工具,可以充分利用NVIDIA的GPU来加速LLMs的推理,而无需花费大量资金。
不仅如此,TensorRT-LLM现在还提供了本地Windows支持(beta版)。这意味着你可以在搭载NVIDIA RTX和NVIDIA GeForce RTX GPU的个人电脑和工作站上本地运行加速的LLMs,而无需云计算资源。
这个开源库还包括了许多令人兴奋的特性,例如支持多种LLMs,包括Llama 1和2、ChatGLM、Falcon、MPT、Baichuan、Starcoder等。它还支持在推理过程中进行批处理,多GPU和多节点推理,以及最新的优化内核,可以让LLMs执行得更快。
最重要的是,TensorRT-LLM是一个非常有趣的工具,它可以让你探索大型语言模型的奥秘,优化它们的性能,甚至构建自己的模型。无论你是想改进自己的AI应用还是满足好奇心,TensorRT-LLM都是你不可或缺的朋友。
最后,如果你想更深入地了解这个库以及如何使用它,不用担心,TensorRT-LLM的GitHub存储库中有大量示例和文档(https://github.com/NVIDIA/TensorRT-LLM/tree/release/0.5.0/examples),可以帮助你快速上手。开源的力量将为我们的科技世界带来更多的创新和可能性,TensorRT-LLM只是这个激动人心未来的一个开始!