GPU fieldiag 介绍

2024-05-27 15:35:35 浏览数 (2)

文档描述

NV官方当前以fieldiag的结果做为RMA的标准,现场对GPU最通用的压测手段也是fieldiag,那么此工具具体测试的内容有哪些?本文档对具体测试内容进行了一个简单介绍。

工具特征

该工具对不同型号,不同形态的GPU均支持使用fieldiag压测。各个厂商针对不同的GPU都有匹配的fieldiag工具。

相关背景

在了解关于GPU 压测的内容之前,可以通过链接熟悉一下当前重要GPU的信息

可以登录 nv 官网查看

做好fieldiag工具U盘,进入对应的压测OS之后,可执行以下命令执行压测。

1./fieldiag.sh <option>

常见Option

Description

--help

命令帮助,打印相关参数

--sit

执行System Integration Test(系统简易检查)

--test

用来执行指定的测试(例如gpumem)

--level1

Run the comprehensive Level I suite of tests

--level2

Run the comprehensive Level Il suite of tests

检测步骤

总体上来看fieldiag压测内容由以下test组成:

测试名称/模组

测试时长

SIT

Level 1

Level 2

测试描述

skucheck

~15min

Supported

Supported

Supported

System level check of components against expected versionsGPU基本配置&信息检查

connectivity

~16min

Supported

Supported

Supported

Sanity checks to validate:1. NVLinks are physically present2. PCIE link speeds/width at all depths match POR3. Power connections to GPUscan sustain powerstress workload链接可靠性检查

gpumem

~5min

N/A

Supported

Supported

GPU memory and interface (FBIO) tests显存和驱动接口检测

cudacores

~9min

N/A

Supported

Supported

CUDA core feature testscuda核心检测

pcie

~13min

N/A

Supported

Supported

PCIE bandwidth speed switching, eye diagram testsPCIE带宽检测,眼图检测

nvlink

~24min

N/A

Supported

Supported

NVLink bandwidth,eye diagram testsnvlink带宽检测,眼图检测

nvswitch

~13min

N/A

Supported

Supported

NVLink bandwidth,eye diagram tests targeting NVSwitchesnvlink带宽,switch眼图检测

gpustress

~7min

N/A

Supported

Supported

GPU stress testsGPU压测

power

~24min

N/A

Supported

Supported

Stress power on system components(GPU NVSwitch)供电压测

thermal

~2h 16min

N/A

N/A

Supported

Stress thermal on system components(GPU, NVSwitch)温度压测

Total time

N/A

~34min

~2h 9min

~4h 25min

N/A

相关资料:关于eye diagram:https://knowledge.ni.com/KnowledgeArticleDetails?id=kA00Z0000015BcPSAU&l=en-US

检测完成后会输出压测结果和一份压测日志,日志名称logs-yyyymmdd-hhnnss.tgz

最终有三种结果:PASS FAIL RETEST

pass即压测通过,GPU&链路正常;

fail则可以通过日志观察到是哪颗GPU的哪一项压测未通过并及时更换;

因异常设置导致无法开始压测时会显示retest;

总结

fieldiag总体上能对GPU,GPU链路,CUDA核心,GPU供电和温度,关联接口等进行压测,涉及一些资料可以参考链接,当前文档主要是介绍HGX 8-GPU(Ampere&Hooper)模组的压测内容

gpu

0 人点赞