IDC服务器故障排除思路

2024-10-06 14:01:16 浏览数 (1)

一、维修前准备

1、工具准备

笔记本电脑、拆机工具、DOS系统引导U盘、U盘Linux系统、万用表(主板或不开机故障)、防静电手环、网线、散热硅胶等。

2、备件准备

硬盘、内存、CPU、主板、电源模块等备件

二、常规检查

在不拆机、不断电的情况下检查故障服务器

1、检查开机状态下服务器指示灯是否正常

2、检查有无明显异味、有无明显异响

3、检查外观有无明显磕碰、变形等物理损伤

4、检查电源线、电源开关是否正常

5、登录BMC系统,查看设备状态和日志,定位故障服务器部件

6、在授权可以关机断电的情况下,重启服务器,查看BIOS信息和BMCSEL信息定位服务器故障部件

7、如确定为可热插拔的设备造成,可以直接不关机的情况下进行更换解决,比如更换硬盘

三、拆机维修

提前佩戴好防静电手环,手环必须接触皮肤,不可以带到衣服之外,另一端连接到能够接地的金属器物,比如机柜等。

1、最小化测试法

当无法定位到具体故障时,可以通过能开机的最小化配置并逐步添加部件来判断故障范围。

除了主板外,只保留单颗CPU、单根内存,一个PSU,用短接开关针脚方式开机,来进行判断。再依次替换部件进行排查。如果最小化可以正常开机,再逐步添加其他部件,通过重启服务器来判断是哪个部件故障。

2、替换法

当大概知道故障范围时,可以通过1-3个部件逐步替换来查找出具体故障,检查故障现象是否有变化,来确认具体故障点。

通过逐一替换服务器内的疑似故障部件,观察故障现象是否消失,以此定位故障部件。可以先替换比较容易出故障的部件,比如硬盘、内存等。

3、交叉比较法

通过同类型的部件(出现故障的零件和正常运行的零件)交叉安装测试,来排除故障部件。如果出现故障状况消失,则有可能是部件安装不到位。如果故障状况随报错部件转移,则可以判断此报错部件为故障,将其更换。如果故障状况没有随报错部件转移,则可以判断非此部件故障,需要继续进行交叉替换测试。

PS:以上方法,不一定单独使用,可以具体情况具体分析,可以灵活组合使用

四、主要配件故障排除思路

1、CPU故障

1.1、无法开机

1)查看服务器的BMC log日志,来定位故障CPU位置

2)拆机检查故障位置CPU和散热器是否存在接触问题

3)重新拆装CPU确认接触针脚是否弯曲不良

4)单CPU测试、交叉更换CPU测试,确认是否是单CPU故障

5)最小化测试,确认是否是其他部件故障

6)给主板的CMOS放电

1.2、死机或频繁自动重启

1)进BMC系统查看CPU温度以及各风扇状态是否正常

2)如果温度异常的话,拆机检查服务器挡风罩是否安装到位。检查CPU散热片固定螺丝是否松动,和散热器的接触是否异常,CPU硅脂是否涂抹。如温度正常,则交叉测试CPU,来确认是否是CPU自身故障。

1.3、报内存错误

只有多条内存的报错位置属于同一CPU控制的情况下,才有可能是CPU故障。

1)确认内存槽位,以此确认所涉及的CPU位置

2)CPU交叉测试

PS:CPU故障注意事项:

1)更换CPU的时候,注意卡座上的防呆标志(小三角标志或者缺口位置),对齐再安装,防止针脚压弯

2)必须在CPU表面均匀涂抹一层薄薄的散热硅脂

3)加固散热片螺丝的时候必须保证所有螺丝都无法再手工转动

4)安装螺丝的方法:先按对角顺序挂上螺丝,然后再逐步拧紧

5)注意保持CPU触点面的干净,不能黏上散热硅脂等其他异物

2、主板故障

2.1、无法开机

1)先查看BMC log日志的报错信息,如有明确的信息,则按照信息更换相应的硬件。如果故障件集成在主板上,则需要更换主板

2)拆机检查主板外观是否异常,如有物理损坏(磕碰或烧毁部件等),直接更换主板

3)给主板CMOS电池放电,再测试开机

2.2、死机或者无法识别连接部件

1)查看CPU温度是否过高,排除CPU故障

2)通过替换法测试,最小化配置法测试

PS:主板故障的注意事项

1)更换主板会涉及很多部件的拆装,拆装过程中,要轻拿轻放,不要互相磕碰。

2)拆卸、安装时要双手拿握,小心安放。要保证主板放置到位,注意各个部件的连线,依次插接,相应螺丝也要逐步拧紧。

3、内存故障

内存故障主要原因为:内存松动、内存不良、主板内存插槽不良、内存金手指氧化等。可以查看BMC log日志信息,是否存在告警。

PS:内存故障注意事项

1)内存安装时必须插接到位,两边的卡扣必须卡紧

2)故障排除后,需要在BIOS系统和BMC系统中复核内存状态,确认内存是否能够正常识别。

4、硬盘故障

硬盘故障主要原因为:硬盘松动、硬盘接触不良、插接件不良以及松动(硬盘背板、RAID卡、SASSATAPCIe线)

1)查看硬盘状态指示灯是否正常,如果为红灯状态,则确认为硬盘故障,需要更换此硬盘。

2)根据报错日志、BMC日志等,定位报错硬盘物理位置

3)如果硬盘批量丢失,需要替换测试RAID卡和硬盘背板是否存在故障

PS:硬盘故障注意事项

1)更换完硬盘后,需要在BIOS系统、BMC系统或者无盘系统输入命令lsscsi(PCIe硬盘需要使用命令lsblk),确认是否可以识别到硬盘

2)RAID阵列的硬盘故障,需要提前备份好数据,尽量不要使用交叉测试来排除故障,以免造成数据丢失

5、电源故障

电源故障主要原因为:电源接触不良、电源线松动、电源背板不良或松动。

1)检查电源线是否插上或插紧

2)检查PSU指示灯是否正常(绿灯常亮为正常,橙灯或绿灯闪烁为PSU故障)

3)更换PSU后,电源仍无法工作,检查PSU背板或主板

4)可以进入OS查看电源信息,使用命令为ipmitool sdr elist | grep PS,如果输出的电源指标信息不符合要求,则该PSU故障

6、风扇故障

风扇故障主要原因为:风扇不良、插接不良、线位不对(这种情况多出现在更换主板后)、主板风扇电源口故障或主板BMC版本与风扇型号不符等

1)进BMC系统检查是否可以识别到风扇,风扇转速是否在正常范围

2)拆机检查风扇,并重新插拔

3)更换新风扇后再进行测试,如果风扇转速还是异常,则更换风扇背板(部分特殊机型)

4)如果依然无法解决,直接更换主板

7、网卡故障

网卡故障主要原因为:网卡不良、接触不良、网络环境存在异常

1)检查网卡指示灯,如果网卡指示灯不亮,更换网线测试,如果还不亮,则网卡故障。

2)在OS下查看,是否可以识别到网卡信息,如果没有的话,重新插拔一下网卡,如果依据无法识别,则网卡故障

3)在OS下使用ping查看是否存在丢包,使用ip -s link(或ifconfig)结果中查看RX&TX的dropped和error是否为0,如果不为0,则存在问题

4)更换网卡后依旧存在故障,则更换主板

5)更换网卡后,如果故障消失,需要在OS下对网卡状态和网络传输状况进行复查

8、BMC故障

1)使用网线将笔记本电脑连接到BMC管理口,查看BMC管理口指示灯是否正常。如果指示灯不亮,则更换主板。

2)给BMC分配一个IP,如果BMC可以获取到IP,则进行ping测试。如果无法获取,则BMC故障,需要更换主板

总结:1、系统无法开机和死机基本都是CPU、内存、主板故障导致的;系统自动重启一般也是和主板CPU有关

2、服务器故障处理,一般需要综合处理,综合判断,灵活使用

0 人点赞