一 SLA(服务等级协议)是什么?
云计算SLA是用户签订云平台用户协议的一部分,常认为使用云服务的同时SLA并生效,SLA一般针对云服务的可用性的协议:
可以参考:https://www.huaweicloud.com/declaration/sla.html
1 定义
- 服务
- 服务周期
- 服务周期总时间
- 服务不可用*(具体业务可定义判定依据)
服务不可用的判定是业务相关,有几种常见判定方式,则认为此时间内服务不可用
1)单位时间内,因服务端访问失败10次
2)单位时间,执行某任务失败xx次
- 服务不可用时间
- 服务可用性 = (周期总时间-不可用时间)/周期总时间 * 100%
- 月度服务费
2 补偿
- 方式
服务可用性 | 补充 |
---|---|
99.9%≤服务可用性<99.99% | 月度10% |
95%≤服务可用性<99.9% | 月度服务费的30% |
服务可用性<95% | 月度服务费的50% |
- 申请时限
- 申请方法
3 限制(排除补偿条件)
二 什么算是服务不可用?
1 服务端视角
依据:监控 告警指标,类似模调的被调端
缺陷:不够准确,未通过系统接入层的问题会被忽略,却实实在在影响了用户业务
思考:
- 接入层需要做得更薄,可用性有更高要求
- 异常(系统内部错误、业务错误、时延超预期)的合理处理也可以达到可用性
- 系统的可观测性做好,错误码规范做好
- 更准确判断用户侧的可用性
2 用户端视角
依据:真实服务结果,类似模调的主调方
缺陷:以什么方式收集到服务侧
思考:
- client-sdk 异步聚合上报?
- SLA应该是服务日志统计 客户端埋点2种方式独立实现,取长补短