文档描述
NV官方当前以fieldiag的结果做为RMA的标准,现场对GPU最通用的压测手段也是fieldiag,那么此工具具体测试的内容有哪些?本文档对具体测试内容进行了一个简单介绍。
工具特征
该工具对不同型号,不同形态的GPU均支持使用fieldiag压测。各个厂商针对不同的GPU都有匹配的fieldiag工具。
相关背景
在了解关于GPU 压测的内容之前,可以通过链接熟悉一下当前重要GPU的信息
可以登录 nv 官网查看
做好fieldiag工具U盘,进入对应的压测OS之后,可执行以下命令执行压测。
1./fieldiag.sh <option>
常见Option | Description |
---|---|
--help | 命令帮助,打印相关参数 |
--sit | 执行System Integration Test(系统简易检查) |
--test | 用来执行指定的测试(例如gpumem) |
--level1 | Run the comprehensive Level I suite of tests |
--level2 | Run the comprehensive Level Il suite of tests |
检测步骤
总体上来看fieldiag压测内容由以下test组成:
测试名称/模组 | 测试时长 | SIT | Level 1 | Level 2 | 测试描述 |
---|---|---|---|---|---|
skucheck | ~15min | Supported | Supported | Supported | System level check of components against expected versionsGPU基本配置&信息检查 |
connectivity | ~16min | Supported | Supported | Supported | Sanity checks to validate:1. NVLinks are physically present2. PCIE link speeds/width at all depths match POR3. Power connections to GPUscan sustain powerstress workload链接可靠性检查 |
gpumem | ~5min | N/A | Supported | Supported | GPU memory and interface (FBIO) tests显存和驱动接口检测 |
cudacores | ~9min | N/A | Supported | Supported | CUDA core feature testscuda核心检测 |
pcie | ~13min | N/A | Supported | Supported | PCIE bandwidth speed switching, eye diagram testsPCIE带宽检测,眼图检测 |
nvlink | ~24min | N/A | Supported | Supported | NVLink bandwidth,eye diagram testsnvlink带宽检测,眼图检测 |
nvswitch | ~13min | N/A | Supported | Supported | NVLink bandwidth,eye diagram tests targeting NVSwitchesnvlink带宽,switch眼图检测 |
gpustress | ~7min | N/A | Supported | Supported | GPU stress testsGPU压测 |
power | ~24min | N/A | Supported | Supported | Stress power on system components(GPU NVSwitch)供电压测 |
thermal | ~2h 16min | N/A | N/A | Supported | Stress thermal on system components(GPU, NVSwitch)温度压测 |
Total time | N/A | ~34min | ~2h 9min | ~4h 25min | N/A |
相关资料:关于eye diagram:https://knowledge.ni.com/KnowledgeArticleDetails?id=kA00Z0000015BcPSAU&l=en-US
检测完成后会输出压测结果和一份压测日志,日志名称logs-yyyymmdd-hhnnss.tgz
最终有三种结果:PASS FAIL RETEST
pass即压测通过,GPU&链路正常;
fail则可以通过日志观察到是哪颗GPU的哪一项压测未通过并及时更换;
因异常设置导致无法开始压测时会显示retest;
总结
fieldiag总体上能对GPU,GPU链路,CUDA核心,GPU供电和温度,关联接口等进行压测,涉及一些资料可以参考链接,当前文档主要是介绍HGX 8-GPU(Ampere&Hooper)模组的压测内容