No.182# 故障相关内容提点

2023-02-23 16:37:39 浏览数 (7)

引言

基本上每个公司都有一个NOC团队，负责整个公司技术保障的值班与运营。NOC（Network Operation Center）网络运营中心，这篇捋下NOC负责主要内容。

故障关联的概念
复盘中常见问题
故障复盘主要点
故障治理数字化

一、故障关联的概念

1、发现与恢复

目标：持续提升平均故障间隔时间，持续降平均低故障修复时间。

MTBF（Mean Time Between Failure）平均故障间隔时间
MTTR（Mean Time To Repair）平均故障修复时间

故障平均修复时间（MTTR）具体细分

MTTI（Mean Time To Identify）平均故障发现时间
MTTK（Mean Time To Know）平均故障定位时间
MTTF（Mean Time To Fix）平均故障解决时间
MTTV（Mean Time To Verify）平均故障修复和验证时间
MTTR=MTTI MTTK MTTF MTTV

故障响应要求

5-5-10：5分钟发现、5分钟定位、10分钟解决恢复
3-5-10：3分钟发现、5分钟定位、10分钟恢复

2、服务质量

服务质量指标（SLI）
- 是指衡量服务质量的具体量化指标
- 常见的指标，例如：请求延迟、错误率、系统吞吐量
- 此外，可用性指标99.99%保障、存储系统的持久性指标
服务质量目标（SLO）
- 服务某个质量指标SLI的目标值或者目标值范围
- 例如：该系统的平均请求延迟须小于300ms
服务质量协议（SLA）
- 描述在达到或者未达到SLO的后果
- 如果没有明确的后果，需要重新讨论SLO

二、复盘中常见问题

1、时间线上常见问题

故障发现：负责同学的电话是否及时接听、客诉发现能否转换为系统发现、告警是否有忽略
故障定位：辅助决策/可视化系统根因分析能力的提升、负责同学对系统的熟悉程度
故障恢复：应急预案、止血措施、配置限流/降级预案、强弱依赖以及降级措施
故障解决：定位根因解决、测试验证确认

2、故障类型常见问题

变更执行：变更方对受影响方的触达告知、通知是否到位、变更影响是否远超预期
服务依赖：上下游依赖是否为强依赖、弱依赖降级措施是否具备、是否能兜底措施
场景冲突：本次业务需求变更影响了以前业务场景、测试用例能否覆盖、针对遗落的测试用例该如何增强
代码BUG：兼容性测试、性能测试、单元测试、回归测试、代码CR等能否发现、非生产环境停留期是否能进一步发现
第三方责任：第三方提供的服务导致、服务是否针对第三方服务具备高可用设计、兜底方案

三、故障复盘主要点

由NOC组织复盘，一次复盘包含的内容做个整理。将故障复盘过程落入系统，方便以上相关相关指标的统计、分析以、检索。

1、故障内容总览

对故障简要描述，常见内容如下

故障简要描述
影响的业务域
影响业务范围
影响域干系人
故障域责任人
故障注入时间
故障发生时间
故障发现时间
故障上报时间
NOC介入时间
故障定位时间
故障止血时间
故障恢复时间

2、故障处理时间线

故障发现的时间与渠道
故障定位的时间与过程
故障止血的时间与过程
故障直接以及根本原因

3、故障影响范围

详细罗列受影响的域与业务
单量/客诉/资损/舆情等影响

4、故障定级与改进

根据故障定级条例对该故障定级
故障定责、确定该故障的责任域责任人
该故障关联的改进事项

四、故障治理数字化

根据重要性、影响范围、持续时间、业务的低/高峰期、不同的业务域等制定故障等级标准。

1、故障等级划分

P级故障：例如将故障划分为P0~P5
事件级别：未达到P级故障的事件
故障责任：明确各个等级需承担的责任人
例如：变更造成单量下跌超过30%被定义为P1级故障
例如：P1级故障需要部门负责人承担

2、故障治理数字化

将每次故障以及复盘系统化
自动计算MTBF、MTTR等指标绘制大盘
故障数量、级别、类型等分布情况
相关指标根据业务域下钻和分析
改进事项的推进跟踪管理
故障的定期复盘和分析

腾讯云测试服务

0 人点赞