本次有幸参与腾讯云GPU服务器体验,以此开展为期一个月的GPU服务深度体验,本次体验使用腾讯云P40机型进行yolo-v5模型训练。
硬件环境
- cpu:E5-2680
- GPU:P40
软件环境
- GPU驱动版本510
- cuda版本11.6
- conda版本:4.12
- pytorch版本:1.11.0 cu102
模型训练
本次训练的模型取yolo-v5的yolov5x及yolov5s两种模型,分别为yolo-v5最大及最小的模型。
训练集使用的是天池比赛中的小批量样本商标识别题目中的数据集(训练集图片数量:2400)
在P40(24GB显存下对于大的batch size是非常友好的)
- 训练yolov5x使用图像大小640*640的情况下max batch size达到30 每个epoch耗时3分钟左右
nohup python train.py --img 640 --batch 30 --epochs 100 --data ./data/tianchi.yaml --cfg ./models/yolov5x.yaml --weights weighs/yolov5x.pt &
- 训练yolov5s使用图像大小640*640的情况下max batch达到100 每个epoch耗时1分钟左右
nohup python train.py --img 640 --batch 30 --epochs 100 --data ./data/tianchi.yaml --cfg ./models/yolov5s.yaml --weights weighs/yolov5s.pt &
总结
云GPU对于本地物理GPU非常明显优势在于
- 不受空间限制,只要有网络环境便可使用GPU进行计算
- 省去维护物理机的麻烦,机器配置灵活配置
- 腾讯云的内网仓库提供了非常齐全的软件包,各种环境搭起来很方便
不足的在于成本还是要高于自己买物理GPU,期待云GPU规模上来以后跟常规的CPU服务一样亲民。