【2021微信大数据挑战赛】常见问题之TI-ONE平台使用相关

2021-07-19 18:33:36 浏览数 (1)

  • CUDA环境怎么安装?

TI-ONE平台安装cuda指引:https://cloud.tencent.com/developer/article/1845781

先切到root(sudo su root) 再安装,安装失败看看安装日志。该指引只测试过安装cuda10.1,其他版本没测试过。但TI-ONE不支持安装Nvidia 驱动,因此大家需要根据现有驱动版本 来看具体可以安装哪些cuda版本。

  • cudnn环境怎么安装?

① 自定义环境可执行conda install cudnn cudatoolkit=10.1,版本可按照所需库对应关系设定,安装完可从对应conda环境的lib中看到库文件

② 使用系统默认环境(非conda环境配置)时,/usr/local/下是没有cuda库文件的,若需映射到/usr/local/cuda 路径下,则按照cuda安装指引完成cuda安装,在nvidia官网下载对应cudnn版本解压, 拷贝lib64目录和include/cudnn.h文件到/usr/local/cuda/lib64/和/usr/local/cuda/include/,然后配置环境并更新即可。

  • 安装onnxruntime-gpu出错,导入出现问题:OSError: libcublas.so.10.0: cannot open shared object file: No such file or directory?

自定义conda环境的cuda需正确安装,可使用conda install cudnn cudatoolkit=10.1命令安装后,用pip install onnxruntime-gpu==1.2命令安装1.2版本,经验证1.2版本可用

onnxruntime-gpu版本与cuda,cudnn的版本关系详见:https://www.onnxruntime.ai/docs/reference/execution-providers/CUDA-ExecutionProvider.html#requirements

  • 在提供的环境下,安装torch 1.7无法使用GPU?

需根据cuda版本(系统默认为cuda 10.1版本)来选择相应的torch安装版本,具体安装命令可查询 https://pytorch.org/get-started/previous-versions/

附1.7.1安装命令:

conda install pytorch==1.7.1 torchvision==0.8.2 torchaudio==0.7.2 cudatoolkit=10.1 -c pytorch

备注:如是GPU调用出错问题,请附报错log。

  • 平台提供的Cuda 10.1为什么tf2.1 2.2 2.3无法使用gpu, 只有tf2.0可以?

系统默认cuda 10.1版本对应的tf版本有2.1(python版本2.7,3.5~3.7),2.2(python版本3.5~3.8),2.3(python版本3.5~3.8),默认tf虚拟环境安装了cuda 10.0 cudnn7.6 tf2.0,所以只有2.0能用gpu,自定义虚拟环境时需要在conda环境下重新安装对应的cuda cudnn tf版本

具体版本关系可查看tf官网https://tensorflow.google.cn/install/source

  • 使用的默认环境,pytorch 可以正常训练模型,安装环境时出现错误OSError: CUDA_HOME environment variable is not set. Please set it to your CUDA install root,在/usr/local/ 下没看到cuda文件?

① conda环境的cuda库文件存储于conda环境所在目录的lib目录中,可以自行拷贝过去并配置环境即可

② 若需在/usr/local/下的cuda文件,则需要正确安装cuda及对应的cudnn,才可以正常使用GPU

  • 是否支持安装Docker

不支持

  • 是否支持nbextensions 插件

不支持

  • 1*V100 资源只有40G内存,能否加一个1*V100 100G左右内存的资源?

不支持

  • 在notebook上有什么debug代码的方法吗?

不支持debug

  • tensorflow GPU版本 比 CPU 运行时间还长,用64核CPU,训练时看top,只使用了14个核?

计算量少的情况下GPU较CPU耗时长

  • 使用的默认环境,pytorch 可以正常训练模型,安装环境时出现错误OSError: CUDA_HOME environment variable is not set. Please set it to your CUDA install root,在/usr/local/ 下没看到cuda文件?

① conda环境的cuda库文件存储于conda环境所在目录的lib目录中,可以自行拷贝过去并配置环境即可

② 若需在/usr/local/下的cuda文件,则需要正确安装cuda及对应的cudnn,才可以正常使用GPU

  • 有没有腾讯云的conda源?

关掉外网后conda无法下载组件(腾讯云这边没有conda源),目前配cuda 10.1和cudnn7.6.5的环境,

给选手提供离线包下载上传,https://share.weiyun.com/Y7iiYybq,其他组件使用pip制定腾讯云源可安装,例如:pip install numpy -i http://mirrors.tencentyun.com/pypi/simple

  • 请问下在这个notebook实例里面要怎么释放缓存cache?

notebook无法释放缓存,根因是container无权限执行系统drop命令,建议选手优化代码尝试

传送门

赛事教程汇总专题

0 人点赞