pytorch_字节宝

TensorRT LLM--RMSNorm

腾讯云开发者社区是腾讯云官方开发者社区，致力于打造开发者的技术分享型社区。提供专栏,问答，沙龙等产品和服务，汇聚海量精品云计算使用和开发经验，致力于帮助开发者快速成长与发展，营造开放的云计算技术生态圈。...

pytorch nvidiaTensorRTLLM 大模型推理优化

2023-11-22

PyTorch团队重写「分割一切」模型，比原始实现快8倍

从年初到现在，生成式 AI 发展迅猛。但很多时候，我们又不得不面临一个难题：如何加快生成式 AI 的训练、推理等，尤其是在使用 PyTorch 的情况下。

pytorch 模型内存内核优化

2023-11-22

TensorRT LLM--In-Flight Batching

TensorRT LLM依赖于一个名为Batch Manager的组件来支持请求的即时批处理，该技术旨在减少队列中的等待时间，达到更高的GPU利用率。

pytorch nvidiaTensorRTLLM 大模型推理优化

2023-11-21

TensorRT LLM--Paged KV Cache

技术出处：vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention | vLLM Blog

pytorch nvidia大模型推理优化 TensorRTLLM

2023-11-21

TensorRT LLM vs OpenPPL LLM

PPL LLM只支持baichuan、chatglm、llama三个模型，Tensor-LLM支持几乎所有大模型。

pytorch nvidia模型量化 TensorRTLLM OpenPPLLLM 大模型推理优化

2023-11-21

使用FP8加速PyTorch训练

现代的人工智能硬件架构(例如，Nvidia Hopper, Nvidia Ada Lovelace和Habana Gaudi2)中，FP8张量内核能够显著提高每秒浮点运算(FLOPS)，以及为人工智能训练和推理工作负载提供内存优化和节能的机会。...

pytorch 脚本模型性能优化

2023-11-20

图神经网络原理解析及代码实现（PyTorch）

图神经网络(gnn)是一类功能强大的神经网络，它对图结构数据进行操作。它们通过从节点的局部邻域聚合信息来学习节点表示(嵌入)。这个概念在图表示学习文献中被称为“消息传递”。...

神经网络 pytorch 论文数据原理

2023-11-16

PyTorch与torch-xla的桥接

XLA (Accelerated Linear Algebra)是一个开源的机器学习编译器，对PyTorch、Tensorflow、JAX等多个深度学习框架都有支持。最初XLA实际上是跟Tensorflow深度结合的，很好地服务了Tensorflow和TPU，而与XLA的结合主要依赖于...

pytorch torch 编译函数框架

2023-11-16

【腾讯云 HAI域探秘】HAI推动Pytorch2.0 AI框架新时代

对于机器学习和深度学习的码农们，几大框架大家都不陌生，但是不管是从科研还是论文上面，能看到的PyTorch的项目比TensorFlow要多，虽然在在Stack Overflow上3种主流框架Keras、TensorFlow和PyTorch统计中能看到TensorFlow依...

pytorch jupyter-lab

2023-11-09

torchpipe : Pytorch 内的多线程计算并行库

云端深度学习的服务的性能加速通常需要算法和工程的协同加速，需要模型推理和计算节点的融合，并保证整个“木桶”没有太明显的短板。

pytorch 多线程后端模型数据

2023-10-30

8 9 10 11 12

TensorRT LLM--RMSNorm

PyTorch团队重写「分割一切」模型，比原始实现快8倍

TensorRT LLM--In-Flight Batching

TensorRT LLM--Paged KV Cache

TensorRT LLM vs OpenPPL LLM

使用FP8加速PyTorch训练

图神经网络原理解析及代码实现（PyTorch）

PyTorch与torch-xla的桥接

【腾讯云 HAI域探秘】HAI推动Pytorch2.0 AI框架新时代

torchpipe : Pytorch 内的多线程计算并行库

热门文章

热门手册