TensorRT-LLM正式开源，NVIDIA生成式AI模型优化赛获奖代码一展芳华

今日，NVIDIA 正式宣布一项令人振奋的消息：TensorRT-LLM（大型语言模型加速器）正式开源！这是一个重大突破，将为那些想要在NVIDIA GPU上加速和优化最新LLMs的推理性能的人们带来福音。让我们一起深入了解这个激动人心的开源项目，探索它的意义和应用。

首先，让我们明白，什么是LLMs？LLMs，即大型语言模型，已经改变了人工智能领域，为我们提供了前所未有的方式来与数字世界互动。但是，正如很多人已经意识到的，LLMs 有个问题——它们实在太大了。这不仅让它们运行缓慢，还让成本飙升。

为了应对这一挑战，出现了各种各样的优化技术，从模型优化到运行时优化，数不胜数。这些技术包括内核融合、量化、C 实现、KV缓存、连续的批处理等等。但是，选择适合自己应用的技术并不容易，因为它们之间的互动复杂，有时甚至不兼容。

NVIDIA 带来了TensorRT-LLM，这是一个全面的库，用于编译和优化LLMs以进行推理。TensorRT-LLM不仅包含了所有这些优化，还提供了一个直观的Python API，可以帮助你定义和构建新的模型。

大家还记得NVIDIA TensorRT Hackathon 2023生成式AI模型优化赛吗？这是一场充满创新和激情的竞赛，旨在鼓励参赛者优化大型语言模型的推理性能。复赛的赛题要求参赛者自选大型语言模型，同时鼓励使用TensorRT-LLM进行模型推理优化，以探索这个开源库为大模型推理所准备的各种新特性。

这场比赛在前期引起了广泛的关注和热情，但由于在比赛结束时，TensorRT-LLM还没有开源，所以获奖队伍的比赛代码一直无法公开分享。然而，今天，我们终于迎来了比赛代码全面开源的时刻，这意味着更多人将能够受益于这些创新性的解决方案。

让我们展示一下优秀团队的比赛代码库：

无声优化者——完成对 Qwen-7B-Chat 实现推理加速。在开发过程中，克服了 Hugging Face 转 Tensor-LLM、首次运行报显存分配错误、模型 logits 无法对齐等挑战与困难，最终在优化效果上，吞吐量最高提升了 4.57 倍，生成速度最高提升了 5.56 倍。

https://github.com/Tlntin/Qwen-7B-Chat-TensorRT-LLM

NaN-emm——使用 TensorRT-LLM 实现 RPTQ 量化。RPTQ 是一种新颖的基于重排序的量化方法，同时量化了权重与中间结果（W8A8），加速了计算。

https://github.com/yuanjiechen/trt_final

更多获奖队伍的比赛代码可以访问这里获得：

https://github.com/NVIDIA/trt-samples-for-hackathon-cn/blob/master/Hackathon2023/README.md

现在，让我们强调一下今日开源的重要性。TensorRT-LLM 是一个开源库，这意味着它对所有人免费开放，任何人都可以从 /NVIDIA/TensorRT-LLM 的GitHub仓库中获取它。这为开发者、科研人员和AI爱好者提供了一个强大的工具，可以充分利用NVIDIA的GPU来加速LLMs的推理，而无需花费大量资金。

不仅如此，TensorRT-LLM现在还提供了本地Windows支持（beta版）。这意味着你可以在搭载NVIDIA RTX和NVIDIA GeForce RTX GPU的个人电脑和工作站上本地运行加速的LLMs，而无需云计算资源。

这个开源库还包括了许多令人兴奋的特性，例如支持多种LLMs，包括Llama 1和2、ChatGLM、Falcon、MPT、Baichuan、Starcoder等。它还支持在推理过程中进行批处理，多GPU和多节点推理，以及最新的优化内核，可以让LLMs执行得更快。

最重要的是，TensorRT-LLM是一个非常有趣的工具，它可以让你探索大型语言模型的奥秘，优化它们的性能，甚至构建自己的模型。无论你是想改进自己的AI应用还是满足好奇心，TensorRT-LLM都是你不可或缺的朋友。

最后，如果你想更深入地了解这个库以及如何使用它，不用担心，TensorRT-LLM的GitHub存储库中有大量示例和文档（https://github.com/NVIDIA/TensorRT-LLM/tree/release/0.5.0/examples），可以帮助你快速上手。开源的力量将为我们的科技世界带来更多的创新和可能性，TensorRT-LLM只是这个激动人心未来的一个开始！

开源 nvidia 模型优化 LLM

0 人点赞