这个问题经常被问起
最近有人在Github上发了一个评测报告,我们先来看看吧。
这个报告记录了DeepDetect开源深度学习服务在各种计算平台和流行神经网络架构上的性能。
点击阅读原文可以了解更详细的测试情况
参考平台
NVidia GTX 1080 Ti
NVidia Jetson TX1
NVIDIA Jetson NANO
Raspberry Pi 3
请注意,1080Ti和TX1使用CuDNN NVidia加速库,而TK1使用没有CuDNN的GPU加速,而Raspberry仅使用CPU。
参考网络
- GoogleNet
- VGG16 and VGG19
- Resnet 50, 101 and 152
- Densenet 121 and 201
- Squeezenet v1.0 and v1.1
- Mobilenet (原始Caffe版本和另一个自定义加速版本)
- Shufflenet
先看一下测试结果:
GTX1080ti
在使用GTX1080Ti的桌面级别GPU上,大多数型号的性能都能超过25 fps。该卡有11 GB GDDR5X VRAM和3584 CUDA核,最大主频1582 MHz。这相当于11.3 tflops /s。相对嵌入式系统,桌面GPU卡有强大的实时处理性能,但其功耗在嵌入式系统应用中是不可行的。在280瓦的负载下,桌面设置适合于分析应用程序。
Jetson TX1
排名第二的是英伟达Jetson TX1。TX1在运行时的最大功耗为15w,是嵌入式系统应用程序的一个很好的候选。在1 TFLOPS理论输出时,TX1能够将squeezenet_1.0、squeezenet_v1.1、mobilenet_depthwise、googlenet和shufflenet推到超过25帧每秒。在极端情况下,对于squeezenet_v1.1, Tx1最多可以计算85帧fps,批处理大小等于或大于16。对于自动驾驶汽车等时间紧迫的项目,TX1可能是可行的解决方案。
Jetson Nano
Nano在运行时的功耗为5w,是嵌入式系统应用和IA on edge的低成本解决方案。它的输出为500 GFLOPS。批量为1时,ShuffleNet和SqueezeNet分别达到12和25 fps。Jetson Nano在运行 Squeezenet-SSD-faces, SqueezeNet-SS-voc 和ResNet18-ocr时,batch-size等于2,可以推动多达10帧每秒。当推到64批大小时,Nano可以为SqueezeNet和ResNet18-ocr计算高达48帧的帧频。对于大型项目或预算有限的项目,Jetson Nano似乎是一个有趣的解决方案。
Raspberry Pi3 model B
在只有4瓦的负载下,Pi应该是遥感的首选解决方案。缺点在于它处理图像的能力,最多只有1帧。