Windows显卡类问题

2024-02-22 17:59:54 浏览数 (1)

之前遇到过几种显卡故障(有的并非真的故障),供参考

一 nvidia-nmi和设备管理器有明显报错的,code43 、code28、code10 冷迁移解决

特点:一方面是报错码,一方面就是使用正确的驱动安装文件安装驱动报错,换多少版本的驱动安装文件都不管用

基本可以通过报错码code43 、code28、code10判断,冷迁移(会换卡,大概率会是好卡)如果换到了好卡就会正常,退下旧卡让后端联系nvidia厂商

code43 我自己电脑也遇到过,不一定是硬件故障,有时候是显卡驱动不匹配

参考https://cloud.tencent.com/developer/article/old/2287619

code10大概率是硬件故障,需要冷迁移以临时恢复

以code 10为例

禁用启用显卡,问题依旧;重启机器,问题依旧。

①设备管理器显卡黄色感叹号

②nvidia-nmi.exe执行报错如图

③代码10,系统资源不够,无法完成API

④因为设备有问题,此设备没有使用任何资源

⑤硬盘上驱动文件都在

总之,非OS内部问题,需要后端标记是哪块显卡有问题,标记好显卡后该维修维修、该换件换件,有问题的机器先冷迁移规避。

二 nvidia-nmi和设备管理器无明显报错的

①设备管理器状态正常

②执行nvidia-smi.exe命令正常

③heavyload 压测CPU、压测GPU均正常

④octanebench 压测报错

⑤vraybench 三种模式(纯CPU压测正常、CUDA即CPU N卡混合压测报错、RTX即仅N卡压测报错)

④和⑤佐证显卡异常,单凭前面①②③可能误导人

三 镜像没有预热

(镜像预热目前仅支持北京六区等个别可用区,需商务渠道才能开通)镜像未预热,机器创建之初,系统盘disk util% 过高,导致显卡驱动未能加载成功,报错码code 18,这种情况重启机器等两三分钟就可以恢复正常(如果没恢复,手动在设备管理器加载下显卡驱动就可以),这种并不是真的硬件故障

0 人点赞