背景
先给大家看看几个故障案例;你会发现互联网故障似乎一直在你我身边。
图一是B站去年的一份P0级故障
这份是2020年Hello出行爆出的P0级故障,大概持续了6个小时左右
下面我结合我司的故障分制度给大家讲解一下比如上文的P0级或P1故障是怎么定义出来的。
定义
故障等级 | 故障定义 | 故障基础分 |
---|---|---|
P0 | 满足任一1)核心功能不可用2)服务不可用超时30分钟3)造成资金损失4)重点保障客户投诉5)系统安全或数据安全故障 | 50 |
P1 | 满足任一1)次要功能不可用2)服务波动(未掉底)3)业务指标偏离预期 | 20 |
P2 | P0和P1外的故障 | 10 |
故障定义大家对号入座,其实就清楚了,我文章开始说的P0级、P1级到底表达的是什么意思了。
故障分计算
故障分=基础分*持续时长(小时)
持续时长:问题反馈时间 到 问题修复时间(或问题影响已停止)
故障处理流程
快速止血->问题复盘和定责->Action计划
上面我基本上把故障等级的语义和故障分的计算公式结合我司的制度给大家做了一个介绍,希望对大家有所参考
关注我,一个认真生活总想超越自己的程序员!