the original:Choosing the Best GPU for Deep Learning in 2020 https://lambdalabs.com/blog/choosing-a-gpu-for-deep-learning/ author:Michael Balaban translator :bryant8
表现State-of-the-art (SOTA) 的深度学习模型越来越需要更大的显存开销,现在很多GPU已经开始日渐乏力。本文将展示一些GPU在训练SOTA模型的情况。
截止到2020 年 2 月,以下 GPU 可以训练所有SOTA(顶尖)的语言模型或图像模型:
- RTX 8000:48GB 显存,约 5500 美元
- RTX 6000:24GB 显存,约 4000 美元
- Titan RTX:24GB 显存,约 2500 美元
而下面的 GPU 可训练大多数 (有些不行)SOTA 模型:
- RTX 2080Ti:11GB 显存,约 1150 美元
- GTX 1080Ti:11GB 显存,约 800 美元2手
- RTX 2080:8GB 显存,约 720 美元
- RTX 2070: 8GB 显存,约 500 美元
注意:大模型在上面这些的GPU 上训练,通常需调小 Batch size,同时这可能导致更低的精确率。
以下 GPU 无法训练SOTA了:
- RTX 2060: 6GB 显存,约 359 美元
图像模型
1. 显存能支持的最大的批大小
*号表示 GPU 显存不足以运行模型
2. 性能(每秒处理的图像数量)
*号表示 GPU 显存不足以运行模型
语言模型
1. 显存能支持的最大批量大小
2. 性能
以 RTX 8000 为基准(“1”)
结论
1、更大容量的显存对语言模型受益更大。注意语言模型那张图的折线变化轨迹要比图像模型更陡。这表明语言模型受内存的限制更大,而图像模型受算力的限制更大。
2、显存越大往往可以带来更好的模型性能。因为显存越大,batch size 就越大,CUDA 可更加接近满负荷工作。
3、更大的显存可以按比例用更大的 Batch size,比如:24GB 显存的 GPU 相比8GB 显存的 GPU 可以用上 3 倍的 batch。
4、对于长序列,语言模型的内存占用增长不构成比例,因为注意力是序列长度的二次方关系。
建议
1、RTX 2060(6GB):业余炼丹选手。
2、RTX 2070 或 2080(8GB):对炼丹有认真的感情、但较穷的选手,可适用大部分模型啦。
3、RTX 2080Ti(11GB):沉迷炼丹无法自拔者,愿意为之付出到 1200美元左右。注:RTX 2080Ti 在深度学习训练上要比 RTX 2080 快大约 40%。
4、Titan RTX 和 Quadro RTX 6000(24GB):经常研究 SOTA 仙丹选手,但没富到能买 RTX 8000 ,可选这两款。
5、Quadro RTX 8000(48GB):志在炼出大力神丹!丹界新 SOTA,this is for U!