最近访问外国网站出现了点困难,导致我们的CUDA菜鸟系列要先暂停一段时间。
对于Lady来说,我信了你的邪!我决定把之前发布的关于TensorRT的视频教程再综合地整理一遍。
NVIDIA TensorRT是个好工具!它是一个高性能的深度学习推理优化器和运行时,它提供低延迟和高吞吐量。TensorRT可以从每个深度学习框架导入经过训练的模型,从而轻松地创建可以集成到大型应用程序和服务中的高效推理引擎。
实战课程一:
TensorRT中递归神经网络的介绍(中文字幕)
这个视频的五个关键点:
1.TensorRT支持RNNv2, MatrixMultiply, ElementWise, TopK层。
2.RNNv2层需要单独设置每个门和层的权重,RNNv2的输入格式为BSE (Batch, Sequence, embed)。
3.完全连接层也可以用矩阵乘层和Element-Wise 层实现。或者,您可以直接使用TensorRT的完全连接层,但是在将权重输入到该层之前,需要对其进行重新设置。
4. 可以将引擎序列化到内存块,然后将内存块序列化到文件或流。这消除了再次执行优化步骤的需要。
5. 虽然这个示例是用c 构建的,但是您可以使用TensorRT Python API在Python中实现相同的功能。
本视频演示如何使用NVIDIA TensorRT配置基于字符级语言模型的简单递归神经网络(RNN)。
实战课程二:
利用NVIDIA TensorRT优化一个推荐系统(中文字幕)
个性化推荐系统是建立在海量数据挖掘基础上的一种高级智能平台,以帮助用户提供完全个性化的决策支持和信息服务。
今天的视频就是利用NVIDIA TensorRT优化一个推荐系统。
NVIDIA TensorRT是一个高性能的深度学习推理优化器和运行时,为深度学习推理应用程序提供低延迟和高吞吐量。您可以将经过训练的模型从每个深度学习框架导入TensorRT中,并轻松创建可集成到大型应用程序和服务中的高效推理引擎。
本视频演示了使用NVIDIA TensorRT优化基于MovieLens数据集的多层感知器推荐系统的步骤。
这个视频的五个关键点:
1. 在TensorRT中包含的Universal Framework Format (UFF)工具包的帮助下,将经过训练的TensorFlow模型导入TensorRT非常简单。
2. 甚至在将其导入TensorRT之后,您也可以向训练的模型添加额外的层。
3.可以将引擎序列化到内存块,然后将内存块序列化到文件或流。这消除了再次执行优化步骤的需要。
4. 虽然模型的训练精度较高(FP32),但TensorRT提供了较低精度(FP16)进行推理的灵活性。
5. TensorRT 4包括新的操作,如Concat、Constant和TopK,以及对多层感知器的优化,以加快推荐系统的推理性能。
实战教程三:
如何在Matlab中使用TensorRT
MATLAB 现在可通过 GPU Coder 实现与 NVIDIA TensorRT 集成。这可以帮助工程师和科学家们在 MATLAB 中开发新的人工智能和深度学习模型,且可确保性能和效率满足数据中心、嵌入式应用和汽车应用不断增长的需求。
MATLAB 提供了一个完整的工作流程来快速训练、验证和部署深度学习模型。工程师可以使用 GPU 资源,而无需额外编程操作,因此可以专注于应用本身而不是性能调优。NVIDIA TensorRT 与 GPU Coder 的全新集成使得可以在 MATLAB 中开发深度学习模型,然后以高吞吐量低延迟的方式部署在 NVIDIA GPU 上运行。内部基准测试显示,MATLAB 生成的CUDA代码与 TensorRT 结合,在部署 Alexnet模型进行深度学习推理时,性能比 TensorFlow 高 5 倍;在部署 VGG-16 模型进行深度学习推理时,性能比 TensorFlow 高 1.25 倍。