【推荐收藏】网络系统维护和故障处理的相关资料及处理方式

2022-01-13 17:22:02 浏览数 (1)

本期给大家整理了网络系统维护和故障处理的相关资料。

网络运维也叫运维管理(Operation Administration and Maintenance,OAM)。Maintennance——维护,包括例行维护和故障维护

  • 例行维护:网络进行例行检查与维护,以消除设备的运行隐患
  • 故障处理:故障处理则指在网络出现故障时对网络进行应急处理的过程

运维人员在进行网络维护时必须遵循以下注意事项:

  • 发生故障时请先评估是否为紧急故障,是紧急故障请使用预先制定的紧急故障处理方法尽快恢复故障模块,进而恢复业务。
  • 严格遵守操作规程和行业安全规程,确保人身安全与设备安全。
  • 更换和维护设备部件过程中,要做好防静电措施,佩戴防静电腕带。
  • 在故障处理过程中遇到的任何问题,应详细记录各种原始信息。
  • 所有的重大操作,如重启设备、擦除数据库等均应作记录,并在操作前仔细确认操作的可行性,在做好相应的备份、应急和安全措施后,方可由有资格的操作人员执行。

那下面聊一下例行维护:

例行维护的目的是通过日常的例行维护发现并消除设备的运行隐患,主要包括以下内容:

  • 设备环境检查
  • 设备基本信息检查
  • 设备运行状态检查
  • 接口内容检查
  • 业务检查
设备运行环境检查

设备运行环境正常是保证设备正常运行的前提,日常例行维护过程中,要定期检查机房温度、湿度、空调运行状态、供电状况等。

  • 温度:0~40℃
  • 湿度:机房相对湿度(RH):5%~90%
  • 空调运行状态:可持续、稳定,确保温度、湿度状态正常
  • 供电情况:供电系统、接地方式、防雷状况、安装规范性
  • 其他:清洁状况、酸碱状况等
设备基本信息检查

设备基本信息检查,主要检查设备的软件版本、License许可、补丁信息、系统时间等是否正确。

  • 软件版本:PCB版本、软件版本、启动加载软件包等
  • License信息:GTL License文件名、版本及配置项,主控板License状态等
  • 补丁信息:补丁信息是否最新
  • 系统时间:系统时间设置是否准确
  • 其他:存储空间检查、设备信息中心,debug开关,是否保存,连通性等
设备运行状态检查

设备运行状态检查,主要检查设备的单板运行状态、设备复位情况、设备温度等是否正常。

  • 单板运行状态:板块是否在线,状态是否正常设备
  • 复位状态:复位时间,复位原因,有无异常复位等
  • CPU、内存占用状态:CPU占用小于80%,内存小于60%
  • 告警信息、日志信息
  • 其他:温度状态、风扇状态、电源状态等
接口内容检查

常见的接口内容检查包括检查协商模式、端口配置、端口状态等信息。

  • 接口错包:有无CRC等错包
  • 接口配置:双工模式、速率、协商模式、环回配置等是否正确
  • 接口状态:接口物理状态是否满足要求
  • POE供电:支持POE供电的接口状态是否正常
  • 接口统计数据:接口统计数据有无异常增长
业务检查

业务检查主要检查包括IP业务、组播、路由等业务是否正常。

  • IP流量统计
    • 单次采集的错包和TTL超时报文数小于100。
    • 正常情况下,两次采集的错包数和TTL超时报文数没有增长
  • ICMP流量统计
    • “destination unreachable”和“redirects”项不超过100

下面讲一下故障处理流程:

  • 基本思路
    • 故障的所有可能原因缩减或隔离成几个小的子集,从而使问题的复杂度迅速下降。
  • 基本步骤
    • 观察现象、收集信息、判断分析、原因排查
  • 三个阶段
    • 故障信息采集阶段
    • 故障定位与诊断阶段
    • 故障修复阶段
故障信息采集阶段

在发生业务故障时,首先应该收集故障相关的信息,需要收集的故障信息包括如下内容。

  • 发生故障的时间、故障点的网络拓扑结构(例如故障设备连接的上下游设备、所处的网络位置)、导致故障的操作、故障后已采取的措施和结果、故障现象和影响的业务范围(例如故障导致哪些端口的哪些业务不正常)等。
  • 发生故障的设备的名称、版本、当前配置、接口信息等。
  • 发生故障时产生的日志信息。
故障信息采集一般通过两种方式获取。
  • 华为、华三设备中可以通过【display】命令,思科、锐捷可以使用【show】命令
    • 【display】【show】命令是网络维护和故障处理的重要工具,可用于了解设备的当前状况、检测相邻设备、总体监控网络、定位网络故障等
  • 通过查看设备日志和告警信息。
  • 设备发生故障时,系统会自动生成一些系统日志和告警信息,搜集分析这些信息有助于用户了解设备运行过程中发生的情况,定位故障点
下面主要介绍一下华为的display命令

信息项

使用命令

设备信息

display device

接口信息

display interface

版本信息

display version

补丁信息

display patch-information

电子标签信息

display elabel

设备状态信息

display health

系统当前配置信息

display current-configuration

系统保存的配置信息

display saved-configuration

时间信息

display clock

用户日志信息

display logfile buffer

诊断日志信息

display diag-logfile buffer

告警信息

display trapbuffer

内存使用信息

display memory-usage

CPU使用信息

display cpu-usage

华为设备支持一键获取诊断信息,其中包括设备的启动配置、当前配置、接口信息、时间、系统版本等。

命令为:

  • 【display diagnostic-information [ file-name ]】
  • 如果不指定“file-name”参数,诊断信息会在终端显示;
  • 如果指定“file-name”参数,诊断信息会直接存储到指定的txt文件中。建议将诊断信息输出到指定的txt文件中。

查看告警信息和系统日志的操作步骤。

  • 步骤①:用户视图下,执行【save logfile】命令,手动将日志文件缓存区中的信息保存到日志文件中。
  • 步骤②:将flash:/syslogfile/(V200R005C00及后续版本是flash:/logfile/)和flash:/resetinfo/下的所有文件通过FTP/TFTP方式传输到终端(PC)上。
故障定位阶段

故障定位的目的是找出故障的原因,是故障处理中的核心工作,它依赖于前面收集到的故障信息,信息收集的越完整越准确就越可以准确快速的定位。

常见的故障原因有:

  • 配置错误或不完整。
  • 访问规则配置过于严格。
  • 设备/协议兼容性问题。
  • 设备变更,如配置修改、版本升级、板卡增删。
  • 网络中链路故障。
  • 周边设备配置改动。
  • 流量异常,如突发超高流量。硬件故障。
故障处理的目的是消除故障现象,恢复网络正常运转,同时不会引起其它故障。

处理故障时一般遵循以下3个步骤。

  • 步骤①:通过收集到的故障现象列举可能的原因,该步骤通常需要故障处理人员具有较高的技术水平和经验。
  • 步骤②:制定故障排查方案。指定故障排查方案时,运维人员需根据自己的网络状况、故障严重程度综合考虑多种因素,包括故障原因排查顺序、确定排查方法和工具、预估故障排查时间、确定故障原因后的处理方式等。
  • 步骤③:按照步骤二制定的方案依次进行故障排查。故障排查时,在进行下一方案之前,需要将网络恢复到实施上一方案前的状态。如果保留上一方案对网络的改动,可能会对故障跟因的定位产生干扰并且可能导致新的故障。

常见故障案例

电源模块故障(不上电)
  • 故障现象:系统“SYS”指示灯和电源指示灯都不亮。
  • 故障原因:未打开电源开关,设备电源线缆没有插牢,电源模块故障
  • 故障处理
    • 确认设备电源开关是否打开。
    • 确认设备电源线缆是否插牢。
    • 确认设备电源模块是否故障。
    • 确认完以上3个步骤后,设备仍然不能正常上电,可以确认是设备本身有故障,请收集故障信息并联系技术支持,更换新的设备
电源模块故障(指示灯红色常亮)
  • 故障现象:电源指示灯红色常亮。
  • 故障原因:电源模块没有插牢,可插拔电源模块故障,外接电源模块故障。
  • 故障处理
    • 将设备上的电源模块插紧。
    • 更换设备上的可插拔电源模块。
    • 更换设备的外接电源模块。
风扇模块故障
  • 故障现象:噪音很大,风扇“STATUS”指示灯为红色快闪状态
  • 故障原因:风扇模块没有完全插入槽位、风扇叶被异物卡住、风扇软件版本过旧、风扇模块故障。
  • 故障处理
    • 重新插拔风扇模块,确保风扇模块可靠插入设备背板,拧紧风扇模块面板上的松不脱螺钉。
    • 拔出风扇模块,清除堵住风扇叶的异物,重新将风扇模块插入机框。
    • 确认风扇对应的设备软件版本是否过低,如果过低,则需升级风扇软件版本。
    • 使用相同型号正常工作的风扇模块替换插入该风扇槽位,如果故障消失,说明风扇模块本身有故障,更换新的风扇模块。
单板故障(无法上电)
  • 故障现象:【display device】看不到单板,指示灯不亮。
  • 故障原因:单板没有插紧,软件版本不支持等。
  • 故障处理
    • 查看单板是否插牢。使用【display version】命令查看软件版本信息。
    • 将步骤二显示的版本信息提交给技术支持,确认单板是否支持该软件版本。
单板故障(无法注册)
  • 故障现象:【display device】会发现单板的“Register”状态为“Unregistered”。
  • 故障原因:做过软件升级且升级前单板可能插拔过,升级过程中设备异常断电等。
  • 故障处理
    • 重新插拔单板,检查机箱内背板连接器是否有倒针,如果有倒针,修复倒针后再插入单板,确保单板可靠插入背板。
    • 收集故障信息并联系技术支持,恢复单板软件。
单板故障(异常复位)
  • 故障现象:【display device】会发现单板的状态时而正常,时而异常。
  • 故障原因:做过软件升级且升级前单板可能插拔过,升级过程中设备异常断电等。
  • 故障处理
    • 关掉设备电源开关,插紧电源线缆和电源模块,重新上电。
    • 重新插拔单板,确保单板与设备背板之间可靠连接。
    • 观察白炽灯是否忽明忽暗来确认电压是否稳定,如果电压不稳,建议使用稳压器或者不间断电源供电。将设备上的接地点与室内等电位连接端子连接在一起,可以有效降低单板因雷雨天气异常复位风险。
端口类故障(以太网电口)
  • 故障现象:状态无法UP,指示灯异常。
  • 故障原因:网线问题,网口配置问题,自协商兼容问题,单板故障等。
  • 故障处理
    • 更换一根确认为好的网线。确保网线两端对接设备网口配置参数(端口速率,是否双工,是否自动协商等)一致。
    • 如果两端参数一致且都是自协商模式,故障依然存在,将两端端口都尝试设置成强制方式。
    • 做环回测试。如果环回测试正常,表明对端设备可能存在问题;否则,更换端口进行下一步测试。
    • 在同一单板上更换端口并做环回测试,发现还是无法“UP”,则判定为单板故障。
    • 在其他单板上更换端口测试,如果故障修复,则更换原故障单板,否则收集故障信息并联系技术支持。
端口类故障(光口)
  • 故障现象:状态无法UP,LINK指示灯不亮。
  • 故障原因:光纤问题、光模块问题、光衰参数不合适、光电复用接口未配置为光口等。
  • 故障处理
    • 更换能正常工作的光纤和光模块来验证光纤或光模块是否有问题。
    • 确认端口使用的光模块是否为华为技术有限公司认证的光模块。
    • 确认光模块速率与光接口速率是否一致。
    • 确认光模块的工作波长与对端使用的光模块工作波长是否一致。
    • 确认光模块的使用距离与标称距离是否相当。
    • 对于光电复用端口,在相应的接口视图下使用【display this】命令来查看当前端口是否设置为光口。
    • 使用【display transceiver verbose】命令查看光模块信息,检查是否有告警,根据告警信息做相应处理,比如提示接收信号过高时,则适当增加接收回路的光衰。
    • 以上故障均排除后,如问题仍不能解决,收集故障信息并联系华为技术支持。
存储类故障

常见的存储类故障包括内存占用率告警、无法使用SD卡、USB存储器等。

  • 内存占用率是指程序已经使用的内存大小占总内存大小的比例。默认情况下内存占用率超过95%会产生告警,如果内存占用率持续增长,最终会导致系统自动复位,造成业务中断。在设备运行过程中,可能有应用程序长时间占用内存而不释放,致使占用的内存空间不断累积增长,最终导致系统内存耗尽内存占用率持续增长,这种故障现象叫做内存泄漏。
  • 发生内存泄漏时,应收集设备总的内存占用率、2号分区大小块、指定块、各个PID和指定PID的内存使用情况,并将收集到的信息提供给华为技术有限公司。
  • 更为常见的存储类故障是无法读写SD卡、USB存储器等,SD卡、USB存储器损坏或者接触不良都可能导致此类故障。出现这种故障时,一般可通过更换正常的SD卡、USB存储器或重新插拔修复故障。如果依旧无法修复,则可收集故障信息并联系技术支持。

0 人点赞