一、维修前准备
1、工具准备
笔记本电脑、拆机工具、DOS系统引导U盘、U盘Linux系统、万用表(主板或不开机故障)、防静电手环、网线、散热硅胶等。
2、备件准备
硬盘、内存、CPU、主板、电源模块等备件
二、常规检查
在不拆机、不断电的情况下检查故障服务器
1、检查开机状态下服务器指示灯是否正常
2、检查有无明显异味、有无明显异响
3、检查外观有无明显磕碰、变形等物理损伤
4、检查电源线、电源开关是否正常
5、登录BMC系统,查看设备状态和日志,定位故障服务器部件
6、在授权可以关机断电的情况下,重启服务器,查看BIOS信息和BMCSEL信息定位服务器故障部件
7、如确定为可热插拔的设备造成,可以直接不关机的情况下进行更换解决,比如更换硬盘
三、拆机维修
提前佩戴好防静电手环,手环必须接触皮肤,不可以带到衣服之外,另一端连接到能够接地的金属器物,比如机柜等。
1、最小化测试法
当无法定位到具体故障时,可以通过能开机的最小化配置并逐步添加部件来判断故障范围。
除了主板外,只保留单颗CPU、单根内存,一个PSU,用短接开关针脚方式开机,来进行判断。再依次替换部件进行排查。如果最小化可以正常开机,再逐步添加其他部件,通过重启服务器来判断是哪个部件故障。
2、替换法
当大概知道故障范围时,可以通过1-3个部件逐步替换来查找出具体故障,检查故障现象是否有变化,来确认具体故障点。
通过逐一替换服务器内的疑似故障部件,观察故障现象是否消失,以此定位故障部件。可以先替换比较容易出故障的部件,比如硬盘、内存等。
3、交叉比较法
通过同类型的部件(出现故障的零件和正常运行的零件)交叉安装测试,来排除故障部件。如果出现故障状况消失,则有可能是部件安装不到位。如果故障状况随报错部件转移,则可以判断此报错部件为故障,将其更换。如果故障状况没有随报错部件转移,则可以判断非此部件故障,需要继续进行交叉替换测试。
PS:以上方法,不一定单独使用,可以具体情况具体分析,可以灵活组合使用
四、主要配件故障排除思路
1、CPU故障
1.1、无法开机
1)查看服务器的BMC log日志,来定位故障CPU位置
2)拆机检查故障位置CPU和散热器是否存在接触问题
3)重新拆装CPU确认接触针脚是否弯曲不良
4)单CPU测试、交叉更换CPU测试,确认是否是单CPU故障
5)最小化测试,确认是否是其他部件故障
6)给主板的CMOS放电
1.2、死机或频繁自动重启
1)进BMC系统查看CPU温度以及各风扇状态是否正常
2)如果温度异常的话,拆机检查服务器挡风罩是否安装到位。检查CPU散热片固定螺丝是否松动,和散热器的接触是否异常,CPU硅脂是否涂抹。如温度正常,则交叉测试CPU,来确认是否是CPU自身故障。
1.3、报内存错误
只有多条内存的报错位置属于同一CPU控制的情况下,才有可能是CPU故障。
1)确认内存槽位,以此确认所涉及的CPU位置
2)CPU交叉测试
PS:CPU故障注意事项:
1)更换CPU的时候,注意卡座上的防呆标志(小三角标志或者缺口位置),对齐再安装,防止针脚压弯
2)必须在CPU表面均匀涂抹一层薄薄的散热硅脂
3)加固散热片螺丝的时候必须保证所有螺丝都无法再手工转动
4)安装螺丝的方法:先按对角顺序挂上螺丝,然后再逐步拧紧
5)注意保持CPU触点面的干净,不能黏上散热硅脂等其他异物
2、主板故障
2.1、无法开机
1)先查看BMC log日志的报错信息,如有明确的信息,则按照信息更换相应的硬件。如果故障件集成在主板上,则需要更换主板
2)拆机检查主板外观是否异常,如有物理损坏(磕碰或烧毁部件等),直接更换主板
3)给主板CMOS电池放电,再测试开机
2.2、死机或者无法识别连接部件
1)查看CPU温度是否过高,排除CPU故障
2)通过替换法测试,最小化配置法测试
PS:主板故障的注意事项
1)更换主板会涉及很多部件的拆装,拆装过程中,要轻拿轻放,不要互相磕碰。
2)拆卸、安装时要双手拿握,小心安放。要保证主板放置到位,注意各个部件的连线,依次插接,相应螺丝也要逐步拧紧。
3、内存故障
内存故障主要原因为:内存松动、内存不良、主板内存插槽不良、内存金手指氧化等。可以查看BMC log日志信息,是否存在告警。
PS:内存故障注意事项
1)内存安装时必须插接到位,两边的卡扣必须卡紧
2)故障排除后,需要在BIOS系统和BMC系统中复核内存状态,确认内存是否能够正常识别。
4、硬盘故障
硬盘故障主要原因为:硬盘松动、硬盘接触不良、插接件不良以及松动(硬盘背板、RAID卡、SASSATAPCIe线)
1)查看硬盘状态指示灯是否正常,如果为红灯状态,则确认为硬盘故障,需要更换此硬盘。
2)根据报错日志、BMC日志等,定位报错硬盘物理位置
3)如果硬盘批量丢失,需要替换测试RAID卡和硬盘背板是否存在故障
PS:硬盘故障注意事项
1)更换完硬盘后,需要在BIOS系统、BMC系统或者无盘系统输入命令lsscsi(PCIe硬盘需要使用命令lsblk),确认是否可以识别到硬盘
2)RAID阵列的硬盘故障,需要提前备份好数据,尽量不要使用交叉测试来排除故障,以免造成数据丢失
5、电源故障
电源故障主要原因为:电源接触不良、电源线松动、电源背板不良或松动。
1)检查电源线是否插上或插紧
2)检查PSU指示灯是否正常(绿灯常亮为正常,橙灯或绿灯闪烁为PSU故障)
3)更换PSU后,电源仍无法工作,检查PSU背板或主板
4)可以进入OS查看电源信息,使用命令为ipmitool sdr elist | grep PS,如果输出的电源指标信息不符合要求,则该PSU故障
6、风扇故障
风扇故障主要原因为:风扇不良、插接不良、线位不对(这种情况多出现在更换主板后)、主板风扇电源口故障或主板BMC版本与风扇型号不符等
1)进BMC系统检查是否可以识别到风扇,风扇转速是否在正常范围
2)拆机检查风扇,并重新插拔
3)更换新风扇后再进行测试,如果风扇转速还是异常,则更换风扇背板(部分特殊机型)
4)如果依然无法解决,直接更换主板
7、网卡故障
网卡故障主要原因为:网卡不良、接触不良、网络环境存在异常
1)检查网卡指示灯,如果网卡指示灯不亮,更换网线测试,如果还不亮,则网卡故障。
2)在OS下查看,是否可以识别到网卡信息,如果没有的话,重新插拔一下网卡,如果依据无法识别,则网卡故障
3)在OS下使用ping查看是否存在丢包,使用ip -s link(或ifconfig)结果中查看RX&TX的dropped和error是否为0,如果不为0,则存在问题
4)更换网卡后依旧存在故障,则更换主板
5)更换网卡后,如果故障消失,需要在OS下对网卡状态和网络传输状况进行复查
8、BMC故障
1)使用网线将笔记本电脑连接到BMC管理口,查看BMC管理口指示灯是否正常。如果指示灯不亮,则更换主板。
2)给BMC分配一个IP,如果BMC可以获取到IP,则进行ping测试。如果无法获取,则BMC故障,需要更换主板
总结:1、系统无法开机和死机基本都是CPU、内存、主板故障导致的;系统自动重启一般也是和主板CPU有关
2、服务器故障处理,一般需要综合处理,综合判断,灵活使用