引言
基本上每个公司都有一个NOC团队,负责整个公司技术保障的值班与运营。NOC(Network Operation Center)网络运营中心,这篇捋下NOC负责主要内容。
- 故障关联的概念
- 复盘中常见问题
- 故障复盘主要点
- 故障治理数字化
一、故障关联的概念
1、发现与恢复
目标:持续提升平均故障间隔时间,持续降平均低故障修复时间。
- MTBF(Mean Time Between Failure)平均故障间隔时间
- MTTR(Mean Time To Repair)平均故障修复时间
故障平均修复时间(MTTR)具体细分
- MTTI(Mean Time To Identify)平均故障发现时间
- MTTK(Mean Time To Know)平均故障定位时间
- MTTF(Mean Time To Fix)平均故障解决时间
- MTTV(Mean Time To Verify)平均故障修复和验证时间
- MTTR=MTTI MTTK MTTF MTTV
故障响应要求
- 5-5-10:5分钟发现、5分钟定位、10分钟解决恢复
- 3-5-10:3分钟发现、5分钟定位、10分钟恢复
2、服务质量
- 服务质量指标(SLI)
- 是指衡量服务质量的具体量化指标
- 常见的指标,例如:请求延迟、错误率、系统吞吐量
- 此外,可用性指标99.99%保障、存储系统的持久性指标
- 服务质量目标(SLO)
- 服务某个质量指标SLI的目标值或者目标值范围
- 例如:该系统的平均请求延迟须小于300ms
- 服务质量协议(SLA)
- 描述在达到或者未达到SLO的后果
- 如果没有明确的后果,需要重新讨论SLO
二、复盘中常见问题
1、时间线上常见问题
- 故障发现:负责同学的电话是否及时接听、客诉发现能否转换为系统发现、告警是否有忽略
- 故障定位:辅助决策/可视化系统根因分析能力的提升、负责同学对系统的熟悉程度
- 故障恢复:应急预案、止血措施、配置限流/降级预案、强弱依赖以及降级措施
- 故障解决:定位根因解决、测试验证确认
2、故障类型常见问题
- 变更执行:变更方对受影响方的触达告知、通知是否到位、变更影响是否远超预期
- 服务依赖:上下游依赖是否为强依赖、弱依赖降级措施是否具备、是否能兜底措施
- 场景冲突:本次业务需求变更影响了以前业务场景、测试用例能否覆盖、针对遗落的测试用例该如何增强
- 代码BUG:兼容性测试、性能测试、单元测试、回归测试、代码CR等能否发现、非生产环境停留期是否能进一步发现
- 第三方责任:第三方提供的服务导致、服务是否针对第三方服务具备高可用设计、兜底方案
三、故障复盘主要点
由NOC组织复盘,一次复盘包含的内容做个整理。将故障复盘过程落入系统,方便以上相关相关指标的统计、分析以、检索。
1、故障内容总览
对故障简要描述,常见内容如下
- 故障简要描述
- 影响的业务域
- 影响业务范围
- 影响域干系人
- 故障域责任人
- 故障注入时间
- 故障发生时间
- 故障发现时间
- 故障上报时间
- NOC介入时间
- 故障定位时间
- 故障止血时间
- 故障恢复时间
2、故障处理时间线
- 故障发现的时间与渠道
- 故障定位的时间与过程
- 故障止血的时间与过程
- 故障直接以及根本原因
3、故障影响范围
- 详细罗列受影响的域与业务
- 单量/客诉/资损/舆情等影响
4、故障定级与改进
- 根据故障定级条例对该故障定级
- 故障定责、确定该故障的责任域责任人
- 该故障关联的改进事项
四、故障治理数字化
根据重要性、影响范围、持续时间、业务的低/高峰期、不同的业务域等制定故障等级标准。
1、故障等级划分
- P级故障:例如将故障划分为P0~P5
- 事件级别:未达到P级故障的事件
- 故障责任:明确各个等级需承担的责任人
- 例如:变更造成单量下跌超过30%被定义为P1级故障
- 例如:P1级故障需要部门负责人承担
2、故障治理数字化
- 将每次故障以及复盘系统化
- 自动计算MTBF、MTTR等指标绘制大盘
- 故障数量、级别、类型等分布情况
- 相关指标根据业务域下钻和分析
- 改进事项的推进跟踪管理
- 故障的定期复盘和分析