本期给大家整理了网络系统维护和故障处理的相关资料。
网络运维也叫运维管理(Operation Administration and Maintenance,OAM)。Maintennance——维护,包括例行维护和故障维护
- 例行维护:网络进行例行检查与维护,以消除设备的运行隐患
- 故障处理:故障处理则指在网络出现故障时对网络进行应急处理的过程
运维人员在进行网络维护时必须遵循以下注意事项:
- 发生故障时请先评估是否为紧急故障,是紧急故障请使用预先制定的紧急故障处理方法尽快恢复故障模块,进而恢复业务。
- 严格遵守操作规程和行业安全规程,确保人身安全与设备安全。
- 更换和维护设备部件过程中,要做好防静电措施,佩戴防静电腕带。
- 在故障处理过程中遇到的任何问题,应详细记录各种原始信息。
- 所有的重大操作,如重启设备、擦除数据库等均应作记录,并在操作前仔细确认操作的可行性,在做好相应的备份、应急和安全措施后,方可由有资格的操作人员执行。
那下面聊一下例行维护:
例行维护的目的是通过日常的例行维护发现并消除设备的运行隐患,主要包括以下内容:
- 设备环境检查
- 设备基本信息检查
- 设备运行状态检查
- 接口内容检查
- 业务检查
设备运行环境检查
设备运行环境正常是保证设备正常运行的前提,日常例行维护过程中,要定期检查机房温度、湿度、空调运行状态、供电状况等。
- 温度:0~40℃
- 湿度:机房相对湿度(RH):5%~90%
- 空调运行状态:可持续、稳定,确保温度、湿度状态正常
- 供电情况:供电系统、接地方式、防雷状况、安装规范性
- 其他:清洁状况、酸碱状况等
设备基本信息检查
设备基本信息检查,主要检查设备的软件版本、License许可、补丁信息、系统时间等是否正确。
- 软件版本:PCB版本、软件版本、启动加载软件包等
- License信息:GTL License文件名、版本及配置项,主控板License状态等
- 补丁信息:补丁信息是否最新
- 系统时间:系统时间设置是否准确
- 其他:存储空间检查、设备信息中心,debug开关,是否保存,连通性等
设备运行状态检查
设备运行状态检查,主要检查设备的单板运行状态、设备复位情况、设备温度等是否正常。
- 单板运行状态:板块是否在线,状态是否正常设备
- 复位状态:复位时间,复位原因,有无异常复位等
- CPU、内存占用状态:CPU占用小于80%,内存小于60%
- 告警信息、日志信息
- 其他:温度状态、风扇状态、电源状态等
接口内容检查
常见的接口内容检查包括检查协商模式、端口配置、端口状态等信息。
- 接口错包:有无CRC等错包
- 接口配置:双工模式、速率、协商模式、环回配置等是否正确
- 接口状态:接口物理状态是否满足要求
- POE供电:支持POE供电的接口状态是否正常
- 接口统计数据:接口统计数据有无异常增长
业务检查
业务检查主要检查包括IP业务、组播、路由等业务是否正常。
- IP流量统计
- 单次采集的错包和TTL超时报文数小于100。
- 正常情况下,两次采集的错包数和TTL超时报文数没有增长
- ICMP流量统计
- “destination unreachable”和“redirects”项不超过100
下面讲一下故障处理流程:
- 基本思路
- 故障的所有可能原因缩减或隔离成几个小的子集,从而使问题的复杂度迅速下降。
- 基本步骤
- 观察现象、收集信息、判断分析、原因排查
- 三个阶段
- 故障信息采集阶段
- 故障定位与诊断阶段
- 故障修复阶段
故障信息采集阶段
在发生业务故障时,首先应该收集故障相关的信息,需要收集的故障信息包括如下内容。
- 发生故障的时间、故障点的网络拓扑结构(例如故障设备连接的上下游设备、所处的网络位置)、导致故障的操作、故障后已采取的措施和结果、故障现象和影响的业务范围(例如故障导致哪些端口的哪些业务不正常)等。
- 发生故障的设备的名称、版本、当前配置、接口信息等。
- 发生故障时产生的日志信息。
故障信息采集一般通过两种方式获取。
- 华为、华三设备中可以通过【display】命令,思科、锐捷可以使用【show】命令
- 【display】【show】命令是网络维护和故障处理的重要工具,可用于了解设备的当前状况、检测相邻设备、总体监控网络、定位网络故障等
- 通过查看设备日志和告警信息。
- 设备发生故障时,系统会自动生成一些系统日志和告警信息,搜集分析这些信息有助于用户了解设备运行过程中发生的情况,定位故障点
下面主要介绍一下华为的display命令
信息项 | 使用命令 |
---|---|
设备信息 | display device |
接口信息 | display interface |
版本信息 | display version |
补丁信息 | display patch-information |
电子标签信息 | display elabel |
设备状态信息 | display health |
系统当前配置信息 | display current-configuration |
系统保存的配置信息 | display saved-configuration |
时间信息 | display clock |
用户日志信息 | display logfile buffer |
诊断日志信息 | display diag-logfile buffer |
告警信息 | display trapbuffer |
内存使用信息 | display memory-usage |
CPU使用信息 | display cpu-usage |
华为设备支持一键获取诊断信息,其中包括设备的启动配置、当前配置、接口信息、时间、系统版本等。
命令为:
- 【display diagnostic-information [ file-name ]】
- 如果不指定“file-name”参数,诊断信息会在终端显示;
- 如果指定“file-name”参数,诊断信息会直接存储到指定的txt文件中。建议将诊断信息输出到指定的txt文件中。
查看告警信息和系统日志的操作步骤。
- 步骤①:用户视图下,执行【save logfile】命令,手动将日志文件缓存区中的信息保存到日志文件中。
- 步骤②:将flash:/syslogfile/(V200R005C00及后续版本是flash:/logfile/)和flash:/resetinfo/下的所有文件通过FTP/TFTP方式传输到终端(PC)上。
故障定位阶段
故障定位的目的是找出故障的原因,是故障处理中的核心工作,它依赖于前面收集到的故障信息,信息收集的越完整越准确就越可以准确快速的定位。
常见的故障原因有:
- 配置错误或不完整。
- 访问规则配置过于严格。
- 设备/协议兼容性问题。
- 设备变更,如配置修改、版本升级、板卡增删。
- 网络中链路故障。
- 周边设备配置改动。
- 流量异常,如突发超高流量。硬件故障。
故障处理的目的是消除故障现象,恢复网络正常运转,同时不会引起其它故障。
处理故障时一般遵循以下3个步骤。
- 步骤①:通过收集到的故障现象列举可能的原因,该步骤通常需要故障处理人员具有较高的技术水平和经验。
- 步骤②:制定故障排查方案。指定故障排查方案时,运维人员需根据自己的网络状况、故障严重程度综合考虑多种因素,包括故障原因排查顺序、确定排查方法和工具、预估故障排查时间、确定故障原因后的处理方式等。
- 步骤③:按照步骤二制定的方案依次进行故障排查。故障排查时,在进行下一方案之前,需要将网络恢复到实施上一方案前的状态。如果保留上一方案对网络的改动,可能会对故障跟因的定位产生干扰并且可能导致新的故障。
常见故障案例
电源模块故障(不上电)
- 故障现象:系统“SYS”指示灯和电源指示灯都不亮。
- 故障原因:未打开电源开关,设备电源线缆没有插牢,电源模块故障
- 故障处理
- 确认设备电源开关是否打开。
- 确认设备电源线缆是否插牢。
- 确认设备电源模块是否故障。
- 确认完以上3个步骤后,设备仍然不能正常上电,可以确认是设备本身有故障,请收集故障信息并联系技术支持,更换新的设备
电源模块故障(指示灯红色常亮)
- 故障现象:电源指示灯红色常亮。
- 故障原因:电源模块没有插牢,可插拔电源模块故障,外接电源模块故障。
- 故障处理
- 将设备上的电源模块插紧。
- 更换设备上的可插拔电源模块。
- 更换设备的外接电源模块。
风扇模块故障
- 故障现象:噪音很大,风扇“STATUS”指示灯为红色快闪状态
- 故障原因:风扇模块没有完全插入槽位、风扇叶被异物卡住、风扇软件版本过旧、风扇模块故障。
- 故障处理
- 重新插拔风扇模块,确保风扇模块可靠插入设备背板,拧紧风扇模块面板上的松不脱螺钉。
- 拔出风扇模块,清除堵住风扇叶的异物,重新将风扇模块插入机框。
- 确认风扇对应的设备软件版本是否过低,如果过低,则需升级风扇软件版本。
- 使用相同型号正常工作的风扇模块替换插入该风扇槽位,如果故障消失,说明风扇模块本身有故障,更换新的风扇模块。
单板故障(无法上电)
- 故障现象:【display device】看不到单板,指示灯不亮。
- 故障原因:单板没有插紧,软件版本不支持等。
- 故障处理
- 查看单板是否插牢。使用【display version】命令查看软件版本信息。
- 将步骤二显示的版本信息提交给技术支持,确认单板是否支持该软件版本。
单板故障(无法注册)
- 故障现象:【display device】会发现单板的“Register”状态为“Unregistered”。
- 故障原因:做过软件升级且升级前单板可能插拔过,升级过程中设备异常断电等。
- 故障处理
- 重新插拔单板,检查机箱内背板连接器是否有倒针,如果有倒针,修复倒针后再插入单板,确保单板可靠插入背板。
- 收集故障信息并联系技术支持,恢复单板软件。
单板故障(异常复位)
- 故障现象:【display device】会发现单板的状态时而正常,时而异常。
- 故障原因:做过软件升级且升级前单板可能插拔过,升级过程中设备异常断电等。
- 故障处理
- 关掉设备电源开关,插紧电源线缆和电源模块,重新上电。
- 重新插拔单板,确保单板与设备背板之间可靠连接。
- 观察白炽灯是否忽明忽暗来确认电压是否稳定,如果电压不稳,建议使用稳压器或者不间断电源供电。将设备上的接地点与室内等电位连接端子连接在一起,可以有效降低单板因雷雨天气异常复位风险。
端口类故障(以太网电口)
- 故障现象:状态无法UP,指示灯异常。
- 故障原因:网线问题,网口配置问题,自协商兼容问题,单板故障等。
- 故障处理
- 更换一根确认为好的网线。确保网线两端对接设备网口配置参数(端口速率,是否双工,是否自动协商等)一致。
- 如果两端参数一致且都是自协商模式,故障依然存在,将两端端口都尝试设置成强制方式。
- 做环回测试。如果环回测试正常,表明对端设备可能存在问题;否则,更换端口进行下一步测试。
- 在同一单板上更换端口并做环回测试,发现还是无法“UP”,则判定为单板故障。
- 在其他单板上更换端口测试,如果故障修复,则更换原故障单板,否则收集故障信息并联系技术支持。
端口类故障(光口)
- 故障现象:状态无法UP,LINK指示灯不亮。
- 故障原因:光纤问题、光模块问题、光衰参数不合适、光电复用接口未配置为光口等。
- 故障处理
- 更换能正常工作的光纤和光模块来验证光纤或光模块是否有问题。
- 确认端口使用的光模块是否为华为技术有限公司认证的光模块。
- 确认光模块速率与光接口速率是否一致。
- 确认光模块的工作波长与对端使用的光模块工作波长是否一致。
- 确认光模块的使用距离与标称距离是否相当。
- 对于光电复用端口,在相应的接口视图下使用【display this】命令来查看当前端口是否设置为光口。
- 使用【display transceiver verbose】命令查看光模块信息,检查是否有告警,根据告警信息做相应处理,比如提示接收信号过高时,则适当增加接收回路的光衰。
- 以上故障均排除后,如问题仍不能解决,收集故障信息并联系华为技术支持。
存储类故障
常见的存储类故障包括内存占用率告警、无法使用SD卡、USB存储器等。
- 内存占用率是指程序已经使用的内存大小占总内存大小的比例。默认情况下内存占用率超过95%会产生告警,如果内存占用率持续增长,最终会导致系统自动复位,造成业务中断。在设备运行过程中,可能有应用程序长时间占用内存而不释放,致使占用的内存空间不断累积增长,最终导致系统内存耗尽内存占用率持续增长,这种故障现象叫做内存泄漏。
- 发生内存泄漏时,应收集设备总的内存占用率、2号分区大小块、指定块、各个PID和指定PID的内存使用情况,并将收集到的信息提供给华为技术有限公司。
- 更为常见的存储类故障是无法读写SD卡、USB存储器等,SD卡、USB存储器损坏或者接触不良都可能导致此类故障。出现这种故障时,一般可通过更换正常的SD卡、USB存储器或重新插拔修复故障。如果依旧无法修复,则可收集故障信息并联系技术支持。