本文将介绍 腾讯云 GPU服务器 GPU计算型GN8 上进行的Pytorch模型训练。
一、实例环境
- 操作系统:ubuntu 18 (ubuntu or windows 2选1)
- GPU:Tesla P40(显存24G,超好用) 一块
- CUDA: 10.2 其他配置:miniconda、scp工具...
二、环境配置
1.Nvidia驱动安装
step1:禁用nouveau
创建blacklist-nouveau.conf
代码语言:txt复制sudo vim /etc/modprobe.d/blacklist-nouveau.conf
在文件中写入
代码语言:txt复制blacklist nouveau
代码语言:txt复制options nouveau modeset=0
重新配置内核文件
代码语言:txt复制sudo update-initramfs -u
最后重启
代码语言:txt复制sudo reboot
step2:安装指定版本的驱动
查看可用的驱动
代码语言:txt复制ubuntu-drivers devices
安装驱动(以 nvidia-driver-470 为例,具体安装版本按个人要求)
代码语言:txt复制sudo apt install nvidia-driver-470
安装完毕之后执行
代码语言:txt复制nvidia-smi
查看是否安装成功
2. CUDA & cudnn安装
cuda
使用 wget 可以直接下载,具体下载链接见cuda官网:https://developer.nvidia.com/cuda-toolkit-archive
cudnn
下载稍微麻烦一点,由于我使用的服务器只有命令行,因此先在个人电脑上下载cuda对应的cudnn版本,通过scp上传到服务器上。
方法可能不是最佳解决方法,如有更佳方法欢迎指点
需要注意几点:
①cuda和cudnn安装的 版本对应,下载cudnn的时候一定要注意;
②安装完成之后检查一下:
cuda检查
代码语言:txt复制nvcc -V
cudnn检查(以安装地址 /usr/local/cuda 为例)
代码语言:txt复制cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2
3. miniconda安装
miniconda相较于 conda 而言体量小,功能差不多。
miniconda网址:https://docs.conda.io/en/latest/miniconda.html
复制需要的版本下载链接,使用 wget 可以下载软件包
三、模型训练
这一部分主要配置miniconda环境、上传代码、运行代码就好了。
为了更直观的修改文件和查看结果,我使用了 MobaXterm 软件登陆服务器。
好处:能点击文件进行修改,上传下载都比较方便,一般不怎么会突然终端。
last but not least
致谢
非常感谢腾讯云平台提供的 free 服务器一个月使用体验,使用体验用两个字总结:畅快。同时也感谢各位前辈的指点和帮助,在使用服务器过程中,我遇到了一些问题,在官方前辈的解答和大佬群友们的帮助下成功解决,很喜欢这样的工作学习氛围,共同进步、携手同行。
一个月的使用时间,让我解决了一大部分论文所需的实验,衷心感谢提供支持的腾讯云平台以及幕后付出的所有前辈。
目前达到的最佳实验结果(WER):26.1%