在过去的两年时间里,行业内涌现出了众多应当引起我们高度警觉的事故案例,例如阿里云香港 PCCW 机房制冷系统出现故障、广州电信科华数据中心冷却系统发生故障、微软澳洲数据中心制冷单元丢失故障等等。对这些案例加以了解和剖析,不难洞察其中的共同之处:现场运维团队在应对突发状况时,存在应急预案不够完善、应急处置不够及时等问题。故而,如何构建完备的应急应对体系,并保证应急程序得以有效施行,成为每一位机房管理者亟待解决的现实难题。依据笔者过往的运维经验,能够通过建立 EOP、制定并执行 EOP 培训计划、进行回顾更新等步骤来实现运维团队应急能力的构建。
建立 EOP
我们为何需要 EOP?
在紧急情况发生时,受本能驱使,人类往往会倾向于做出对自身有利的最简单行为,然而这种行为通常难以对紧急处置产生积极作用。通过构建有效的 EOP,能够助力运维团队掌握相关技能,指引他们在应急场景下采取有效的行动。
我们需要怎样的 EOP?
EOP 的终极目标在于,当紧急情况出现时,能够在对业务造成影响之前隔离故障设备,保障业务的稳定运行,或者在影响产生后能够迅速、安全地恢复业务运行。为达成上述目标,EOP 通常需要满足如下基本要求:
- 简洁易懂:EOP 应当仅保留必要的要素,并运用尽可能严谨、清晰易懂的语言,确保执行人能够全面、毫无歧义地理解 EOP 的全部内容。
- 全面覆盖:EOP 应尽可能涵盖所有已经发生过以及预期可能发生的场景,并依据后果的严重程度、风险发生的概率等进行分类和排序。
- 详尽指引:EOP 应对设备的信息、需要执行的操作等做出明确、详细的说明,引导执行人高效完成应急处置,避免执行人在此过程中出现不必要的中断。
- 易于访问:EOP 应当向所有运维团队成员开放访问权限,并采用恰当的手段进行保存、分发,以便相关人员能够迅速获取最新的有效版本。
- 持续更新:EOP 应当依据实际执行的反馈、设备的更新、良好的实践经验等及时进行更新,确保内容的有效性。
在实际运用中,一份 EOP 应当包含如下基本内容:
- 适用范围,帮助执行人迅速了解并判断是否适用于当前状况;
- 人员分工,帮助执行人迅速掌握组织运维团队开展应急响应;
- 操作指引,除了简明扼要的设备操作指引外,还应当涵盖预期反馈和汇报程序,引导执行人正确执行应急操作、迅速判断操作的有效性并完成规定的汇报流程;
- 其他,可以依据实际管理要求或实践反馈添加其他必要的内容,例如版本、有效状态、支持文档信息、风险提示等。
制定并执行 EOP 培训计划
我们为何需要进行 EOP 培训
颠覆我们认知的是,在一个高水平、稳定运行的数据中心里,由于设备故障较少,紧急状况鲜少出现,因此运维团队普遍欠缺应对紧急情况管理的实际经验,这正是我们需要重视 EOP 培训的缘由。
我们应当如何制定 EOP 培训计划
为了全方位提升运维团队的应急处置能力,EOP 培训计划应当面向全体成员,并根据不同的岗位和经验水平制定具有针对性的培训方案。
从人员的岗位出发
具体到岗位来说,可以参照如下原则:
- 对于运维经理,重点在于应急响应组织和应急流程决策,着重提升应急情况管理能力;
- 对于专业工程师,重点在于技术状态判断和决策辅助,着重提升应急情况技术支持能力;
- 对于值班长,重点在于应急状态判断和流程执行,着重提升应急情况实施组织能力;
- 对于值班员,重点在于应急状态核查和操作实施,着重提升应急操作执行能力。
从人员的经验水平出发
具体到实际经验而言,可以参照如下原则:
- 对于运维经验不足的员工,由于缺乏实际的应急响应经验,需要系统地学习如何执行流程;
- 对于熟练的运维员工,需要根据实际执行反馈定期开展专项技能培训,防止因为自满、疏忽而产生经验主义的影响。
我们如何选择有效的培训方式
数据中心投入运行后,为确保业务运行的可靠性和稳定性,高风险变更操作通常受到严格管控,EOP 培训通常难以通过实际操作进行,而采用如下方式开展:
情景模拟
用于帮助参与者学习 EOP 在执行过程中的流程和行动项,掌握典型设备故障的应对顺序和操作步骤。这种培训的开展方式较为灵活,且场地、时间不受限制,可以通过参与者相互问答、在线互动题目等形式进行。需要注意的是,在培训设计时要突出关键操作步骤后的结果预期,为参与者预留一定的判断和思考空间,以帮助参与者深化对 EOP 的理解,而非单纯地对操作步骤死记硬背。
模拟演练
用于帮助参与者熟悉设备的位置,并准确地执行 EOP 内要求的各种流程和动作。这种培训通常有桌面推演和跑位两种模式,可根据运维团队的实际情况和工作安排开展。培训的组织者在培训的过程中应当关注负责执行 EOP 的人员是否能够充分理解 EOP 的所有内容并运用,在培训结束后应及时收集参与人员的反馈用于评估 EOP 的有效性。
此外,强烈建议运维团队深度参与验证测试和认证(如 CQC、等保)等相关工作,并在此过程中进行实操演练。
回顾更新
我们为何需要回顾更新 EOP
EOP 作为运维团队应对紧急情况的有力手段,需要在数据中心的整个生命周期内保证其有效性,包括如下三个方面:
- 可执行,执行者应当能够依据 EOP 的指引定位所需操作的设备,并在预期的时间内完成相关操作,推进应急响应流程;
- 可覆盖,EOP 所能覆盖的应急场景应当符合运维团队的应急管理预期,通常来说应当能够覆盖绝大多数高频或会产生严重后果的故障,以及大多数常见故障;
- 符合预期,EOP 的执行结果应当与预期一致。
我们通过哪些方式回顾更新 EOP
EOP 的回顾更新操作应当融入日常运维工作之中,主要通过日常回顾和外部协助两种方式开展:
日常回顾
顾名思义,是运维团队在日常工作中根据反馈更新 EOP 的一种方式。在这种方式中,反馈的来源丰富多样,不仅包括定期开展的情景模拟、模拟演练等培训,还涵盖实际执行的复盘总结、行业事件的经验反馈等。
外部协助
主要通过借助外部合作伙伴,如设备供应商、工程总包方、测试服务商、认证服务商等的支持来实现对 EOP 的反馈与更新,通过他们,我们能够确定 EOP 程序和操作的有效性,获取非正常状态下的操作建议,以及同行业或相近行业的经验反馈等。
结语
在数据中心的日常运维工作中,意外难以杜绝,而针对突发情况的应急能力是对运维团队组织能力、技术水平、日常培训成果的综合考验,需要持续、深入地投入,方能在危急时刻从容不迫,应对自如,保障数据中心的运营和业务安全。