数据中心人力备份冗余方案及实践

2018-03-16 16:22:06 浏览数 (1)

一个机房启用后,我们通常希望人员稳定,且由于各个机房情况不同或启用已久的老机房,我们一般都希望熟悉机房特殊环境的驻场长久工作下去,不要轻易更换。一个稳定且熟悉机房环境的驻场能快速高效的处理机房各项事务,有利于机房稳定运营。

但稳定长久的驻场也会带来一些问题,比如:机房内的历史问题、特殊环境只有驻场一人知晓,一旦驻场离职就会造成信息的断层,可用数据的丢失。由于过于依赖于某一个人,即使明知驻场技能或积极性等不能满足日常运营的要求,也不愿轻易替换他人接手,害怕新人过来后不能承接历史信息,影响日常运营的稳定。

为规避以上问题,可以通过驻场在不同的机房、不同的职位轮岗来解决。

1.机房轮岗

驻场在各机房之间轮岗,可以让更多的人员熟悉不同的机房的特殊情况和历史信息。

2.职位轮岗

通过培训,让驻场具备各种岗位的能力需求,并轮流负责服务器故障处理、资产管理、网络故障处理等事项。

经过轮岗,使得各机房间、各职位间具有高度的冗余备份,不论哪个驻场离职或休假,都有熟悉机房环境、了解处理流程的人员立即顶替,真正做到机房的稳定运营。尤其是资产管理员轮岗更替时,需要进行资产交接盘点,每次的盘点都能检验机房资产是否完整、准确,有利于机房资产管理。

第一阶段:机房轮岗

机房轮岗不以学习技能为目的,主要是为了熟悉机房环境、了解属地处理流程。

1、服务器驻场在其他机房轮岗期间需熟悉机房运营环境、认识运营商相关负责人员、了解机架开关电流程、设备放行流程、人员进出流程、盘点服务器部件。轮岗结束后输出部件盘点报告、机房平面示意图、机房开电流程、设备放行流程、人员进出流程,针对轮岗机房给出可能的优化建议。

2、网络驻场在其他机房轮岗期间需熟悉机房环境、认识运营商相关负责人员,清点网络备件、网优部件,了解机房网络拓扑(包括专线和互联网出口等)、网络架构、机房主要网络设备型号、核心设备和波分所在位置、专线跳接ODF柜所在位置,识别运营商专线标签,以及设备放行流程。轮岗结束后输出盘点报告、机房平面示意图、机房网络拓扑图、机房网络架构图、标注核心设备所机架、ODF所在位置、运营商标签识别规则、设备放行流程、人员进出流程,针对轮岗机房给出可能的优化建议。

3、资产管理员在其他机房轮岗期间需熟悉机房环境、认识运营商相关负责人员;记住保险柜、仓库位置,以及其他可供存放资产的地方;审计货位划分是否正确、资产签收发货流程是否规范、资产领用流程是否规范、线上线下记录表格是否详细;清点保险柜和仓库内所有设备。轮岗结束后输出盘点报告、审计报告、机房平面示意图、机房货位示意图、设备放行流程,针对轮岗机房给出可能的优化建议。

4、由外包厂商定期安排非驻场人员到机房轮岗,作为各机房后备人员,在机房驻场请假或离职时能及时顶上承接日常工作,保证机房运营的稳定性。各类型后备人员需按照前述3项要求在轮岗结束后输出相应的报告,以作为后备人员熟悉机房的能力凭证。

第二阶段:职位轮岗

职位轮岗要求相对较高,需要驻场同时具备服务器、网络、资产三方面的技能。在保证机房稳定运营以及尊重驻场个人意愿的前提下,可以安排专门的技能培训以及其他驻场相互带教,待专业技能能够达到腾讯要求并通过腾讯评审后,可以开始定期承接或交换岗位,做到机房资源复用技能共享,从而形成高度冗余备份保障机房日常工作的连续性和稳定性。

1、服务器岗位轮岗要求:在服务器岗位轮岗前,驻场需通过培训和带教熟悉服务器硬件、操作系统、故障处理流程、报修流程等,在通过数经面试后方可进行轮岗;轮岗期间每周输出工作总结,反馈本周轮岗的内容和心得体会。

2、网络驻场轮岗要求:在网络轮岗前需熟悉网络知识,能够熟练操作网络设备,了解属地机房网络架构和主要设备特性,在通过网络面试后需由原网络驻场带教一段时间,熟悉并输出网络故障处理流程后,方可进行轮岗;轮岗期间每周输出工作总结,反馈本周轮岗的内容和心得体会。

3、资产管理员轮岗要求:在资产管理轮岗前,需非常熟悉各项资产管理规范,并配合原资产管理员进行资产管理,在通过数经面试后方可进行轮岗;正式轮岗前需要对仓库和保险柜内所有资产进行盘点交接,交接双方确认数据后正式启动资产管理岗位的轮岗。轮岗期间每周输出工作总结,反馈本周轮岗的内容和心得体会。

轮岗计划

1.机房轮岗

A和B机房之间进行机房间轮岗:机房稳定运营后,每季度安排一位B驻场到A机房轮岗,安排一位A驻场到B机房进行轮岗,同时每季度由外包厂商安排一位后备人员到B和A机房轮岗,了解各个机房情况;每次轮岗一个星期。

2.职位轮岗

A机房具备常驻的服务器、网络驻场和资产管理员,能够进行3个职位之间的轮岗;每半年安排至少安排一位驻场轮岗承担另一职位工作,每次轮岗一个月。

轮岗收益

1、 潘同学原是A机房的资产管理员,在通过自身学习和其他驻场的带教下已经成功转型为服务器驻场和网络驻场,同时负责服务器和网络;现在A机房在资产管理员、服务器驻场、网络驻场这3个职位已经全部形成了双备份;

2、 前A机房服务器驻场徐同学,通过自身学习、参与机房网络变更故障处理等网络事务,通过网络驻场面试成为正式的腾讯网络驻场,使得A机房当时的网络驻场做到了双冗余备份;

3、 2014年8月份安排A机房服务器驻场潘同学到B机房轮岗,轮岗期间潘同学熟悉B机房收发货物、机架开电、人员进出、资产审计等事务。通过这些工作,潘同学充分熟悉了B的机房环境、日常工作流程,运营商相关负责人员。10月原B驻场陆同学休假的半个月中,潘同学已完全独立承担B机房的日常事务,成功验证了机房轮岗的收益。

小结:通过这种轮岗机制,提升了跨区域、多岗位的人力资源储备,能有效应对数据中心运营过程中的各种人力和技能问题,真正实现人力备份冗余,保障数据中心的安全稳定运营。

版权声明:本文为腾讯数据中心原创,欢迎转载,转载需保持原文(包括标题、导语、正文、图片、数据以及文尾的二维码、版权声明等全部内容)完整。版权均属“深圳市腾讯计算机系统有限公司”所有,未经官方授权,不得使用。

0 人点赞