No.182# 故障相关内容提点

2023-02-23 16:37:39 浏览数 (1)

引言

基本上每个公司都有一个NOC团队,负责整个公司技术保障的值班与运营。NOC(Network Operation Center)网络运营中心,这篇捋下NOC负责主要内容。

  • 故障关联的概念
  • 复盘中常见问题
  • 故障复盘主要点
  • 故障治理数字化

一、故障关联的概念

1、发现与恢复

目标:持续提升平均故障间隔时间,持续降平均低故障修复时间。

  • MTBF(Mean Time Between Failure)平均故障间隔时间
  • MTTR(Mean Time To Repair)平均故障修复时间

故障平均修复时间(MTTR)具体细分

  • MTTI(Mean Time To Identify)平均故障发现时间
  • MTTK(Mean Time To Know)平均故障定位时间
  • MTTF(Mean Time To Fix)平均故障解决时间
  • MTTV(Mean Time To Verify)平均故障修复和验证时间
  • MTTR=MTTI MTTK MTTF MTTV

故障响应要求

  • 5-5-10:5分钟发现、5分钟定位、10分钟解决恢复
  • 3-5-10:3分钟发现、5分钟定位、10分钟恢复

2、服务质量

  • 服务质量指标(SLI)
    • 是指衡量服务质量的具体量化指标
    • 常见的指标,例如:请求延迟、错误率、系统吞吐量
    • 此外,可用性指标99.99%保障、存储系统的持久性指标
  • 服务质量目标(SLO)
    • 服务某个质量指标SLI的目标值或者目标值范围
    • 例如:该系统的平均请求延迟须小于300ms
  • 服务质量协议(SLA)
    • 描述在达到或者未达到SLO的后果
    • 如果没有明确的后果,需要重新讨论SLO

二、复盘中常见问题

1、时间线上常见问题

  • 故障发现:负责同学的电话是否及时接听、客诉发现能否转换为系统发现、告警是否有忽略
  • 故障定位:辅助决策/可视化系统根因分析能力的提升、负责同学对系统的熟悉程度
  • 故障恢复:应急预案、止血措施、配置限流/降级预案、强弱依赖以及降级措施
  • 故障解决:定位根因解决、测试验证确认

2、故障类型常见问题

  • 变更执行:变更方对受影响方的触达告知、通知是否到位、变更影响是否远超预期
  • 服务依赖:上下游依赖是否为强依赖、弱依赖降级措施是否具备、是否能兜底措施
  • 场景冲突:本次业务需求变更影响了以前业务场景、测试用例能否覆盖、针对遗落的测试用例该如何增强
  • 代码BUG:兼容性测试、性能测试、单元测试、回归测试、代码CR等能否发现、非生产环境停留期是否能进一步发现
  • 第三方责任:第三方提供的服务导致、服务是否针对第三方服务具备高可用设计、兜底方案

三、故障复盘主要点

由NOC组织复盘,一次复盘包含的内容做个整理。将故障复盘过程落入系统,方便以上相关相关指标的统计、分析以、检索。

1、故障内容总览

对故障简要描述,常见内容如下

  • 故障简要描述
  • 影响的业务域
  • 影响业务范围
  • 影响域干系人
  • 故障域责任人
  • 故障注入时间
  • 故障发生时间
  • 故障发现时间
  • 故障上报时间
  • NOC介入时间
  • 故障定位时间
  • 故障止血时间
  • 故障恢复时间

2、故障处理时间线

  • 故障发现的时间与渠道
  • 故障定位的时间与过程
  • 故障止血的时间与过程
  • 故障直接以及根本原因

3、故障影响范围

  • 详细罗列受影响的域与业务
  • 单量/客诉/资损/舆情等影响

4、故障定级与改进

  • 根据故障定级条例对该故障定级
  • 故障定责、确定该故障的责任域责任人
  • 该故障关联的改进事项

四、故障治理数字化

根据重要性、影响范围、持续时间、业务的低/高峰期、不同的业务域等制定故障等级标准。

1、故障等级划分

  • P级故障:例如将故障划分为P0~P5
  • 事件级别:未达到P级故障的事件
  • 故障责任:明确各个等级需承担的责任人
  • 例如:变更造成单量下跌超过30%被定义为P1级故障
  • 例如:P1级故障需要部门负责人承担

2、故障治理数字化

  • 将每次故障以及复盘系统化
  • 自动计算MTBF、MTTR等指标绘制大盘
  • 故障数量、级别、类型等分布情况
  • 相关指标根据业务域下钻和分析
  • 改进事项的推进跟踪管理
  • 故障的定期复盘和分析

0 人点赞