云计算SLA思考

2022-07-15 13:11:01 浏览数 (1)

一 SLA(服务等级协议)是什么?

云计算SLA是用户签订云平台用户协议的一部分,常认为使用云服务的同时SLA并生效,SLA一般针对云服务的可用性的协议:

可以参考:https://www.huaweicloud.com/declaration/sla.html

1 定义

  • 服务
  • 服务周期
  • 服务周期总时间
  • 服务不可用*(具体业务可定义判定依据)

服务不可用的判定是业务相关,有几种常见判定方式,则认为此时间内服务不可用

1)单位时间内,因服务端访问失败10次

2)单位时间,执行某任务失败xx次

  • 服务不可用时间
  • 服务可用性 = (周期总时间-不可用时间)/周期总时间 * 100%
  • 月度服务费

2 补偿

  • 方式

服务可用性

补充

99.9%≤服务可用性<99.99%

月度10%

95%≤服务可用性<99.9%

月度服务费的30%

服务可用性<95%

月度服务费的50%

  • 申请时限
  • 申请方法

3 限制(排除补偿条件)

二 什么算是服务不可用?

1 服务端视角

依据:监控 告警指标,类似模调的被调端

缺陷:不够准确,未通过系统接入层的问题会被忽略,却实实在在影响了用户业务

思考:

  • 接入层需要做得更薄,可用性有更高要求
  • 异常(系统内部错误、业务错误、时延超预期)的合理处理也可以达到可用性
  • 系统的可观测性做好,错误码规范做好
  • 更准确判断用户侧的可用性

2 用户端视角

依据:真实服务结果,类似模调的主调方

缺陷:以什么方式收集到服务侧

思考:

  • client-sdk 异步聚合上报?
  • SLA应该是服务日志统计 客户端埋点2种方式独立实现,取长补短

0 人点赞