互联网业务增长快,变化大,涉及到所需的数据中心的各类网络/计算资源瞬息万变,需要大量的人力对现场运营进行支撑,我们以一个实际运营十万台服务器的数据中心为例。整个现场运营主要分为三大部分:IT现场运营,基础设施运营,以及物业/安全/后勤保障。
从图中可以看出,腾讯自有人员主要是各模块团队的现场管理人员和专家团队,大量的现场运营操作维护人员等都外包给专业服务公司,因此,现场外包管理是数据中心运营核心。
外包人员数量模型决定于以下几个因素:
服务器现场运营人员数量模型因素:人员能力(经验及技能),服务器数量(IDC规模),资产管理人员,服务器产品质量;
网络现场运营人员数量模型因素:人员能力(经验及技能),网络架构,网络质量;
电力设施现场运营人员数量模型因素:高/低压日常巡检维护值班人员7*24小时,电气工程师,电气二线支持专家,厂商维保服务支持;
制冷系统现场运营人员数量模型因素:日常空调巡检维护值班人员7*24小时,空调工程师,暖通系统二线支持专家,厂商维保服务支持;
物业管理/保洁/保安等人员数量模型因素:园区大小,日常门卫管理/保安巡逻7*24小时,园区物业,环境保洁,环境安全,中央监控系统完备性等。
随着这几年的运营管理经验积累,我们对整个外包服务管理模型不断的进行优化升级,建立起以数据中心经理为核心的IDC现场运营管理体系。数据中心经理主要工作框架如下:
在整个外包管理体系中,核心就是管人(关注外包人员的管理)、管物(现场资产管理)和管事(现场运营,流程运作,可靠性管理,容量管理,成本管理等)。
本期简要介绍的是腾讯数据中心现场外包管理的模型架构,后面将分期介绍IT现场外包管理,基础设施外包管理,物业安全后勤外包管理等,敬请持续关注!
【IT现场外包管理】
腾讯数据中心的IT现场外包主要指服务器和网络的现场支撑服务,海量的服务器和网络设备,直配、上架、硬件更换、设备巡检、搬迁、基础故障处理,退役等重复性和例行化的标准操作层工作,量大且比较标准,外包给专业的服务厂商处理。
我们一方面通过以ITIL为指导来制定标准的操作流程和操作指引,引导现场外包人员按流程执行;另一方面由于这些标准操作工作,枯燥重复,冰冷的IT设备等势必会导致人员对工作研发厌烦,所以我们更加聚焦关注现场人员的管理:能力和意识培养、工作组织、梯队建设、团队、考核。制定人员基础职业牵引,搭建知识学习和分享提升平台,建立金字塔式的人员组织架构,定期的各种类型的组织氛围建设活动,使得外包人员获得很高的岗位认同感、职业成就感和工作归属感。
在IT现场外包管理中,数据中心经理是本机房外包管理责任第一人,聚焦做好外包工作的标准化制定、外包工作计划、运营任务管理、执行过程监管,以及外包人员的技能培养和外包商/人员评估考核。
【基础设施外包管理】
腾讯作为一家互联网企业,业务核心聚焦互联网用户的业务发展,对于数据中心的专业基础设施,不太可能完全通过自身的技术人力来做好设施设备的维护保养工作,专业人员的能力培养及发展也势必受到一定的约束。
我们把这一部分的维保工作通过专业的厂家来执行,聚焦于外包维护的计划、执行监管和优化层面。具体执行方法:我们会同外包厂商一起制定一套完整的运维服务体系,通过考核评估充分引导厂商用自身的服务专业性来保障基础设施的稳定运营。
数据中心基础设施外包服务质量的一个重要衡量指标--可用率。IDC基础设施可用率关键因素:电力系统可用率和制冷系统可用率;国际通用数据中心认证标准Tier4的指标为:可用性99.995%、年平均故障时间0.4小时。为保障数据中心基础设施的高可用性,在做好日常维护工作的同时,重点做好应急演练,故障隐患管理和备品备件管理。
【物业安全后勤外包管理】
在腾讯数据中心运营过程中还有一个看似不起眼但实际很重要的一块:物业安全后勤。数据中心园区大,设备多,风火水电纷繁复杂,物业包含园区人员出入,机房人员/资产出入,环境的整洁等;安全人员需要负责园区内的环境安全,人身安全;后勤保障数据中心的人员一些物质供应等。
这部分腾讯数据中心全部采用外包方式给专业的物业公司来进行管理运营。我们在要求物业公司做好整个园区的管理基础上更加关注安全管理,制定完备的安全管理体系制度要求物业公司严格遵照执行,确保腾讯数据中心园区内的人身安全和资产安全。通过逐步细化式区域划分制定安全方案:
1、 结合IDC规划及建筑实体,将IDC划分为园区、建筑物单体、功能间。
2、功能间根据其规划用途不同进行划分:
IT设备间: 即俗称的机房,包括电信网络核心机房、业务运营机房、测试机房;
基础设施间: 存放基础设施的功能间,包括存放供电系统、制冷系统等的房间;
公共设施间:IDC的公共接待及存放环境公共设施的功能间,如:如大堂、消防间、报警阀室、监控室、卫生间、电梯间、茶水间、天台等;
办公运维间:指IDC内人员办公使用的功能间,包括:办公室、IT值班室、设备值班室、高压值班室、会议室、库房、交接区等。
在划分好区域后建立基于安全区域划分的物理安全管理策略和实施指引:
腾讯数据中心运营现场纷繁复杂,现场外包管理体系正在逐步建设中,如何更好的高效管理外包来聚焦核心业务,正在逐步摸索和完善中,期待我们每一个人去摸索和前进……
版权声明:本文为腾讯数据中心原创,版权均属“深圳市腾讯计算机系统有限公司”所有,未经官方授权,不得使用。