故障案例
先给大家看看几个发生在身边的几个真实故障案例;你会发现互联网故障似乎一直在你我身边。
案例一:2021年7月B站故障:
案例二:2020年6月哈啰出行故障:
这份是2020年Hello出行爆出的P0级故障,大概持续了6个小时左右
接下来我结合我司的故障等级定义,给大家介绍一下大公司故障等级及故障分规范制度。
让大家明白到底什么才算P0或P1级故障,又是怎么定义出来的。
故障等级的定义
故障等级 | 故障定义 | 故障基础分 |
---|---|---|
P0 | 满足任一1)核心功能不可用2)服务不可用超时30分钟3)造成资金损失4)重点保障客户投诉5)系统安全或数据安全故障 | 50 |
P1 | 满足任一1)次要功能不可用2)服务波动(未掉底)3)业务指标偏离预期 | 20 |
P2 | P0和P1外的故障 | 10 |
这份表格的内容详细阐述了故障等级、故障内容、故障基础分三者的关联关系。 大家就能清晰的明白P0、P1级是被怎么定义出来的,对应的内容又是什么。
故障分计算公式
故障分=基础分*持续时长(小时)
持续时长:问题反馈时间 到 问题修复时间(或问题影响已停止)
故障处理流程
快速止血->问题复盘和定责->Action计划
其他公司的参考
据说亚马逊一般将故障分为 4 级:
- 1 级是全站不可用;
- 2 级是某功能不可用,且无替代方案;
- 3 级是某功能不可用,但有替代方案;
- 4 级是非功能性故障,或是用户不关心的故障。
阿里内的分类更多样一些,有时会根据影响多少用户来定故障等级。
好了上面我基本上把故障等级的语义和故障分的计算公式结合我司的制度给大家做了一个介绍,还附带了国内外一些大厂的案例,还是希望对大家有所参考,如果你们公司刚好在考虑制定相关规范的话。