数据SLA服务保障

2022-05-25 14:26:16 浏览数 (1)

一.背景

        团队成员在数据SLA服务保障缺乏意识认识、行动的执行策略、以及事故的档案管理、进行经验积累与复盘。基于时间推演,复盘总结不断迭代完善,最终目标是达到服务可用性在4个9。

二. SLA服务保障体系

三. 前置条件

1.如何意识到重要性

  • 从告警信息开始,含技术告警余人肉通知,电话与短信告警信息类似SOS标识(告警的级别与收敛)。
  • SLA的影响成本也是从异常发生的时间开始计算(含休息时间)。     

2.如何找到人

  • 在职期间(含请假时间),owner对数据服务可用性负全责。
  • 请假期间,A角梳理请假期间需要代理的工作内容,同时邮件知会团队成员。优先考虑B角作为代理人,代理人(同离职交接人)全责,owner协助处理(离职人员友情协助)。
  • 假设所有问题是owner第一时间发现,资源协调由owner 通知小组长 > 团队负责人进行统筹处理。
  • 非owner第一時間/业务方第一时间发现,团队成员有义务与责任基于进行通知团队负责人,团队负责人跟踪解决问题(重复前面3条)。其次推动开展基于SLA做复盘管理,迭代与完善。

3.如何响应

  • AB机制

横向选择:B角色同职级担任,进行工作代理与SLA服务保障。

纵向选择:B角团队建设与培养担任,补位工作,需要A角进行远程协助或操作指引。。

  • 工作代理机制

              候选人:优先B角色进行工作代理,代理期间与公司要求保持一致,A角尽远程协助的义务。

              工作内容:A角梳理请假期间需要代理的工作内容,同时邮件知会团队成员,妥善安排了工作内容。B角清楚工作的内容也了解工作内容的影响性。

  • 告警机制

             数据流:采用彻头彻尾的机制,源头数据异常(即数据接入、数仓ODS层) 与 结果输出(数据服务接口、数仓ADS层)异常告警立即响应与处理机制,避免异常数据流入,错误数据流出造成不可预估的影响。

             时间线:采用数据应用末尾时间机制,ODS系统业务发现异常最早时间是08:30 am后,则告警与异常解决应该是在这个时间前。如果异常响应未能即时解决,则对外公告是在9:00am。

凡是电话告警,需要立即响应,涉及到关联方定位后第一时间通知对方。电话告警范围(失败,数据质量强规则红色预警可以触发电话告警,任务阻塞(数据量为0,数据量波动超过经验阈值))。

  • SLA操作流程

            操作流程:主要owner操作完成,若B角进行操作,需要提供对应自己的操作文档,未提供操作文档的,算A角失位。同时需要远程协助与操作指引,否则A角失位责任。

0 人点赞