GTX1080ti、Jetson NANO和树莓派跑深度学习性能差别有多大?

2019-07-04 15:47:21 浏览数 (1)

这个问题经常被问起

最近有人在Github上发了一个评测报告,我们先来看看吧。

这个报告记录了DeepDetect开源深度学习服务在各种计算平台和流行神经网络架构上的性能。

点击阅读原文可以了解更详细的测试情况

参考平台

NVidia GTX 1080 Ti

NVidia Jetson TX1

NVIDIA Jetson NANO

Raspberry Pi 3

请注意,1080Ti和TX1使用CuDNN NVidia加速库,而TK1使用没有CuDNN的GPU加速,而Raspberry仅使用CPU。

参考网络

  • GoogleNet
  • VGG16 and VGG19
  • Resnet 50, 101 and 152
  • Densenet 121 and 201
  • Squeezenet v1.0 and v1.1
  • Mobilenet (原始Caffe版本和另一个自定义加速版本)
  • Shufflenet

先看一下测试结果:

GTX1080ti

在使用GTX1080Ti的桌面级别GPU上,大多数型号的性能都能超过25 fps。该卡有11 GB GDDR5X VRAM和3584 CUDA核,最大主频1582 MHz。这相当于11.3 tflops /s。相对嵌入式系统,桌面GPU卡有强大的实时处理性能,但其功耗在嵌入式系统应用中是不可行的。在280瓦的负载下,桌面设置适合于分析应用程序。

Jetson TX1

排名第二的是英伟达Jetson TX1。TX1在运行时的最大功耗为15w,是嵌入式系统应用程序的一个很好的候选。在1 TFLOPS理论输出时,TX1能够将squeezenet_1.0、squeezenet_v1.1、mobilenet_depthwise、googlenet和shufflenet推到超过25帧每秒。在极端情况下,对于squeezenet_v1.1, Tx1最多可以计算85帧fps,批处理大小等于或大于16。对于自动驾驶汽车等时间紧迫的项目,TX1可能是可行的解决方案。

Jetson Nano

Nano在运行时的功耗为5w,是嵌入式系统应用和IA on edge的低成本解决方案。它的输出为500 GFLOPS。批量为1时,ShuffleNet和SqueezeNet分别达到12和25 fps。Jetson Nano在运行 Squeezenet-SSD-faces, SqueezeNet-SS-voc 和ResNet18-ocr时,batch-size等于2,可以推动多达10帧每秒。当推到64批大小时,Nano可以为SqueezeNet和ResNet18-ocr计算高达48帧的帧频。对于大型项目或预算有限的项目,Jetson Nano似乎是一个有趣的解决方案。

Raspberry Pi3 model B

在只有4瓦的负载下,Pi应该是遥感的首选解决方案。缺点在于它处理图像的能力,最多只有1帧。

0 人点赞