NVIDIA TensorRT是一个高性能的深度学习推理优化器和runtime,为深度学习推理应用程序提供低延迟和高吞吐量。您可以从每个深度学习框架中导入经过训练的模型到TensorRT中,并轻松地创建可以集成到更大的应用程序和服务中的高效推理引擎。
本视频演示了使用NVIDIA TensorRT优化基于多层感知器的推荐系统(recommendation systems)的步骤,该系统是针对MovieLens数据集进行的。
这段视频中有五个要点:
- 在包含在TensorRT中的通用框架格式(UFF)工具包中,将经过训练的TensorFlow模型导入到TensorRT非常容易。
- 您可以向经过训练的模型添加一个额外的层,甚至再将其导入到TensorRT之后。
- 您可以将引擎序列化为一个内存块,然后您可以将其序列化到一个文件或流中。这消除了再次执行优化步骤的需要。
- 虽然模型的训练精度较高(FP32),但TensorRT提供了低精度推理的灵活性(FP16)。
- TensorRT 4包含了新的操作,如Concat、Constant和TopK,以及对多层感知器的优化,以加快推荐系统的推理性能。