互联网数据中心运营发展及实践

2018-03-16 10:49:28 浏览数 (1)

Kenny:

各位领导、各位专家、各位嘉宾,大家下午好!

先自我介绍一下,我叫郁智华,在腾讯负责数据中心运营工作。非常高兴今天有这个机会能够向在座各位嘉宾、领导、专家分享腾讯在数据中心运营方面的一些实践和体会,也希望能够得到大家的一些交流和指导。

如大家所了解的,以往的分享我们更多关注在规划设计、新技术方面,但在运营方面比较少。今天我们就来看下这一块的内容。

首先,我们先简单回顾一下数据中心运营这一块过去是什么情况。在2000年之前,我们的数据中心运营其实没有什么太多的规范,也没有太多的标准,更提不上什么自动化的工具和系统来支撑我们的运营。那个时候,相对来说也没有太多的维护计划或者是专业的外包团队给到你支持,那个时候的状态就是很乱,谁建设、谁运维,谁拍屁股走了,就换一套,铲掉了重新建。

在这种情况下,我们的数据中心运营安全靠什么来保障呢?下面这张图大家也许比较熟悉,我们靠什么呢?就是靠烧高香、拜主机、拼人品,祈祷着不要出事情,过去就是这个样子的。

现在是什么情况呢?现在我们有了一定的数据中心运营标准或者说运营规范,有一些较完善的监控系统,自动化的工具也逐渐运用了一些,需要人工干预的工作不会太多。但是面对海量的互联网需求,现场的这些运营,尤其在基础设施这一块的运营需要人工干预的环节还是非常多。

我们的数据中心现场,大家看着挺干净整洁的,也很有序,也做好了冷通道封闭,看上去感觉管理得井井有条。在这种情况下是否我们就没有什么问题和挑战了?我们来看下面的情况,一个数据中心经理在接手一个新的数据中心时,他就已经在面临着很多的挑战和问题了。我们可以看到这幅图,一个数据中心在概念设计或者是在效果图的时候是非常完美的,此时,在数据中心经理来看,感觉这个IDC规划设计得非常好,以后要接起来管理也非常方便,非常高效。实际是不是这样呢?不是这样的,出了施工图,他真正接到这个机房的时候可能就走样了。因为在国内,施工工艺水平确实存在很大的不足,一些设计理念、要求到落地的时候总是有这样那样的问题。到了数据中心经理接手这个IDC的时候可能就千差万别了。

除此之外,在数据中心经理接手一个IDC以后还要面对各种海量的运营需求,比如一个月之内让你交付一万台设备;硬盘的更换,每个月2000块;操作系统的重启,每个月的工单2000单;服务器的硬件更换,每个月超过了800单等等各种海量的运营需求,都给我们一线的运营人员带来非常大的挑战和压力。

另一方面,作为数据中心的运营管理人员,还要面对非常大的成本压力。也许数据中心的服务器在1万台以内的时候,这个电费对于公司来说占不了太多的运营成本。在10万台,貌似也还能接受,也不是主要矛盾。到了50万台,到了100万台呢,这个电费是什么情况呢?在公司的运营成本里面的占比是多少?这个时候作为运营管理人员就要去思考怎样去做好节能,怎样去提高运营效率,怎样去提高资源利用率,怎样去控制运营成本了。这就是作为数据中心管理人员在成本这一块,面对海量运营时要去思考的一些问题。

另外在运营中,我们的业务团队或者我们的管理团队也许还会质疑我们的IDC,业务响应慢,网络不给力,资源交付慢,怎么总会有断电,空调怎么总出问题等等类似的声音。我们一线的兄弟也有意见,我整天忙个不停,加班加点的工作,需求还不断变化,我今天做了可能明天又得变,或者说这里出问题,那里出问题,我总是在救火,我怎么样有时间去思考我的数据中心运营管理和优化?做运营的兄弟也很痛苦。一句话,现阶段我们的数据中心运营,理想是非常美好的,现实是非常残酷的,我们的管理者也面临了非常多的问题和挑战。

那么未来是怎样的情况呢?我们看这几个图,这几个图的意思就是想表达不管在数据中心的规模还是数据中心的数量,以及所承载的服务器的规模和数量方面,在未来都是面临着海量的增加。我们的数据中心未来的运营方向就是要去做海量运营,怎么样能做好海量运营呢?腾讯通过自己的实践,也许算有一些体会。

首先在大的要求上,要有海量运营的意识,要有规范、标准的运营流程,同时一定要有自动化的管理工具和系统平台,给到一线运营管理人员,能够提高运营管理的效率。另一方面,我们还需要有专业的运维外包团队、专业公司加入进来,把我们一线例行化、重复性或者是标准化的工作让专业的外包团队来实施,释放自有的一线运营管理人员,让他们有更多的精力抽出来,去思考刚才提到的如何去优化和提升运营质量、运营安全、运营效率、运营成本,这是最重要的。

未来数据中心的要求就是要快速部署,快速腾挪,跨区冗余、快速调度,这是互联网业务对数据中心基础架构这一块运营的要求。

我们可以通过机房模块之间的备份去满足部分模块故障时的冗余,也可以通过不同IDC之间的跨区冗余备份去保障某个IDC出故障时的业务冗余和快速调度。也就是说我们要通过有效的落地标准化、规范化、自动化,同时依靠我们的外包专业运营团队或者专业厂商或者是我们的运营商去支持一线的有效运营,让我们的运营人员能够抽出精力去做好运营优化管理工作,这个才能达到我们当初所设想的休闲运营、轻松运营,也就是常说的,我们端着一杯咖啡在舒适的办公室里,远程就能把数据中心运营管理得非常到位了。

现在我们来看一下腾讯在这一块怎么样去支撑海量运营呢?运营体系大概是怎么样一个情况呢?这里做一个简单的介绍。

这张图大家也可能比较熟悉了,说的是我们数据中心基础架构的概览。由下至上,分别是我们的基础设施层,往上是承载的系统网络,在系统网络之上承载的是我们的服务器,在服务器之上承载着我们的业务应用。我们整个数据中心的运营就靠最右边这一套的自动化运营系统,以及监控工具平台去支撑海量高效的数据中心运营。

这一页PPT就是我们保证IDC海量运营的基本框架,从生命周期的角度,在设计、建设、运营、裁撤各阶段都会涉及,但我们今天更多的谈运营这一块内容。可以看到框架中,对上我们的用户那一侧是通过内部的OLA去管理我们的用户需求,去对需求做可用性和可靠性的一些保障级别的定义。双方明确需求的分级定义,通过OLA去管理用户的需求,甚至管理我们老板的预期。对下这一部分,就是通过我们的SLA去对我们的合作伙伴,我们的供应商,这里有厂商也有服务商,也有运营商,通过跟合作伙伴的合作,共同通过SLA去保障整个数据中心的安全稳定高效运营。

时间有限,我现在进入今天的重点,我们在数据中心海量运营方面的优化实践。对于大规模IDC来说,需要做的优化工作很多,是不是所有的事情都是你的当务之急或者都是你必须需要去做的呢,如果你都去做,是不是都能来得及做,都能出效果呢?不是这样的,我们一定要找准主要矛盾。

主要矛盾无外乎就是安全、质量、效率成本。我们怎么样在这三方面做一些具体工作呢?接下来让我们先回顾一下安全的事件,比如说过去一年国际上发生了哪些安全的数据中心方面的一些事件,大家可以看得到这里有五个,有VISA、亚马逊、雅虎和一些海外运营商的。在我们身边也有不少这样的事情,大家可能也都听说过,比如说电力专线被挖断了,我们T1级别没有柴发保障的机房模块掉电;或者数据中心的光缆被挖断了,造成业务的中断;或者说电力母排出现了短路导致了末端负载的掉电;还有因为台风、恶劣天气的原因造成机房供电的中断。这些都是我们身边的一些案例。

我们看文字印象不深,我们看一些图片吧,这是威斯康辛的,这是印度加尔各答的,这些都是数据中心一些非常惨痛的事故照片。看完别人的再看我们自己的,这张照片可以很清晰看到电力专线的电缆在市政施工时被钻机给打断了。电力中断后,怎么样能保证业务能快速恢复呢?这里就会提到应急抢修,平时的应急演练是不是到位,现场抢修物资是否足够。在短时间内要找那么多的应急电源线,从其他模块拉电过去紧急恢复供电,现场有没有那么多资源,如果有,现场的人员是否熟悉这些应急操作的场景,做到忙中有序,这些都是需要通过平时不断演练磨合才能达到快速恢复的效果。

下面这个案例,因为台风的原因造成了外部市电的中断,柴发启动运行。柴发长时间带载约20个小时,期间不断的补充柴油,因为柴油中可能有一些杂质,造成柴发不断补油运行过程中造成过滤器的堵塞。同时该柴油发电机的油水分离器只有一个,也没有更多的或者备份冗余的,这就造成长时间运行后输出电力的质量达不到要求,UPS这边就切到旁路了,在发现这个情况后,现场准备切换到备用柴发,因为UPS是在旁路上,切换时就造成了末端负载的掉电。

实际在抢险工作很复杂,过程中也有报警出来,但是在应急抢修的过程当中,是否有效的发现了报警,或者说发现了以后是否有效的去应对了报警,这个过程当中都是需要去考虑的。我们在这个里面发现,第一,油水分离器是一个问题,还有就是平时的应急演练不到位,出现这种极端情况的时候,各个专业的人员他们在现场的配合不熟悉,分工可能在平时的应急预案落在纸上都有,但是实际跑起来就乱了。在应急保障方面就出现了一些问题,造成了末端负载的掉电。

这个案例是供电母排,因为母排的接头经过多年长时间的运行以后,随着负载的增加,可能出现母排有抖动,造成接头处出现了绝缘层的磨坏,最终造成短路,短路以后甚至把发电机这边的定子也给烧掉了。这个图片大家去年也都有见过,光缆被市政施工挖断,对业务造成了很大的影响。这个图片大家也应该熟悉,是UPS内部的电容,因为平时维护不到位,或者是其他的原因,造成电容漏液爆炸,造成UPS起火。

我们总结了一下过去这一段时间,出现的基础设施故障,70%大概都是在电力方面,20%可能是在空调系统,10%左右是光缆专线。我们针对这些问题怎么来做应急保障呢?我们的体系怎么样优化呢?

首先,我们要对应急工作进行分层分级,作为运营支撑保障的部门,在战略层面,要结合公司的业务需求,结合业务的目标,在策略规划的时候就要明确IDC在应急保障这一块的策略就是安全稳定快速恢复。有了这个战略层面的统一思想以后,对齐了业务目标以后,对齐了管理层的要求以后,我们在战术层面就要去制定相应的标准、规范,包括我的组织架构、人员职责、分类分级的应急标准,这一套的东西都必须要有,包括我的预防性维护的标准,都要非常清晰的定义清楚。

在有了这套标准以后,我们在执行层面就需要去有针对性的做一些比如说我的年度演习计划,我的高危设备的巡检计划,分场景的全流程的应急预案,演练计划等都是要去详细的做好。这里我重点提一下,我们全流程的应急预案,为什么要全流程呢?往往在基础设施这方面出现问题的时候并不是单一场景的问题,往往会联动各个专业。比如说电力专线被挖断了,是不是就是停电这一个问题呢?其实不是,有可能会造成机房内的空调系统也因为没有电,而中断供冷,进而造成机房过热,这个时候你的空调专业的同事也要快速进入流程去做应急响应。这个过程当中就需要各个专业的人去做一些联动,共同去响应同一个故障。这就需要去把全流程的东西理顺、练熟。

另外,还有就是我们的应急厂商方面,可能应急的物资大家都想得到,现场一定要备一些物资,但是一些抢修资源,厂商的资源我们平时有没有考虑到?如果出现极端情况下,能不能快速调动应急抢修的施工单位到现场来,这是非常关键的。如果说你现场备了备件,就拿你的空调系统的主管道阀门坏了,要换阀门,如果说你有阀门在现场,或者说你的现场的运营人员的资源是不够支撑你去更换主管道上的阀门,需要外部专业施工单位来,这时候你有没有你的专业施工单位?或者有,你打了电话去,别人响不响应你,这都需要你提前去考虑的,提前跟这些单位谈好应急服务协议,做好应急计划和预案甚至做好关系维护,这里就不再多说了。

这几页,是我们日常做的一些应急演练的工作,一些维护的计划和内容。这是我们高危设备巡检,我们清晰定义了各系统、环节上的高危设备,尤其是在单点上面或者容易出问题的部分,需要用热成像仪定期去扫描。

因为你设施已经通电了,系统已经通电了,你不可能用手去摸,用眼睛看也看不出,所以用热成像仪一扫描就非常清晰,大家可以看得到,这个地方这个接线端温度特别高,实际这个地方就有问题了。

关于运营优化,接下来就是成本这一块,刚才提到了电费是非常大的一部分,我们怎么样去做优化呢?这里有几个案例,我们看一下,大家都知道EC风机是变频的,它的功率和转数的三次方是成正比的,通常情况下,我们传统的机房可能更多的是通过回风温度控制空调工作状态,控制风机转数。我们也尝试了去通过控制地板出风口的压差,也即地板下和地板上的压力差,通过这个压差去控制风机的转数,因为如果风压是稳定的,我就能保证我的送风量,同时也能保证我的风速。这一块我们通过压差去调节,这里有一个实际的数据,通常情况下我们都认为一个机房内,可能精密空调开的台数越少就越省电,实际是不是这样呢?

我们看一下这组数据,比如我用不同运行模式的时候,保证相同的风压,也就是送风量相同。在末端风量相同的情况下,不同的运行模式,功耗是不一样的。可以看得到,9用零备的时候功耗是最低的,虽然说9台空调都开起来了,但是这些风机都是在低频转数下,它的功耗总和比你少开几台空调的功耗总和是要少的。同时所有设备开起来都处于热备状态,对系统的安全性是不会有降低的。我们再看一下怎么样找到一个合适的风压呢?送风量怎么样保证合适呢?

同样都在9用零备的情况下,风压越低,也就是说我的送风量越少,功耗就越小。怎么样去找到一个合适的风压值,找到一个合适的功耗呢?我们通过自己的测试,一个经验值,只供参考,机柜前部冷通道的上下温度差小于1-2度,控制在这个范围内,这个时候的风压就是比较合适。

接下来看看动态水温的调节,我们都知道冷水机组耗能占比是整个空调水系统里面的大头,大概能占70%-90%。我们如果能把这部分的能耗控制住,实际上对于空调系统的节能是非常有帮助的。另外,是不是我的服务器、我的网络设备就一定要工作到22度呢?不是这样的。实际上我们也做了一些测试,我们把冷冻水的出水温度提高1度,如果是在跟之前相同功耗下产冷量能提高3%,如果说提高1度的话,在相同的产冷情况下功耗能降低3%。水温提高,也就是说我把末端的送风温度提高的话,对节能是非常有帮助的。

我们也做过测试,我们的末端机房,冷通道长期运行在26-27度的环境下面,对于服务器和网络设备的故障率,跟传统的送风温度21-22度的环境下设备故障率是没有什么异常的。同时在京津地区,出水温度每提高3度的话,free colling的使用时间可以延长33天。假设我的冷机少开33天,这个节能是非常可观的。同时我提高水温的话,精密空调的表冷器上就不容易结露,这样的话,空调基本上都是显冷,对节能也是非常有效的。

下面看看热点解决的案例,我们通过风量罩、风速仪和CFD模拟等工具的使用,发现和解决机房热点。

可以看到这一排UPS离配电柜很近,这里还有一个高负载的变压器,并且这个地方是靠墙的一个拐角处,气流组织不畅,就形成了热点。我们通过这些工具去采集模拟,输出解决方案,最终通过调整风管位置,加长风管下沉长度,把这边的一个气流做一些引导,增强气流组织,这样的话就有效解决了这一块的热点。

这个是我们几个不同地区IDC,8月份连续三周的PUE的实测数据,可以看得到这边相对来说是传统机房,这边是冷通道封闭的一个机房,这边是我们的TMDC,这边是市电直供加高压直流的TMDC,几个不同技术系统的PUE的实测值,是8月份夏季最热的时候的连续三周的实测值。大家可以看得到不同技术系统的差别还是比较明显的。

我们讲完了成本再讲一下效率怎么样提升。效率的提升,第一个是要主动管理,通过优化完善服务目录、工作目录、SLA去管理用户需求或者老板的预期,建立我们的服务支撑模型和基线。同时我们通过与外包服务商合作,引入了PAD在线巡检工具,我们在每一台精密空调、UPS等基础设施上面都设置了这样的二维码,巡检的时候就通过PAD去扫这个机器的二维码就可以了。扫完二维码,这个机器以往的运维参数或者以前的设备故障情况,更换了哪些部件,通过扫描都能全部在你的PAD上显示出来,同时巡检的设备当前运行数据直接在PAD上就可以记录,不像传统方式要拿一个本子去记录温度多少,湿度多少,处理故障的时候还得查以往这个设施的维护记录,看看它换了什么东西。而通过这个PAD就一目了然了。

还有就是自动化方面,我们通过自研的星云平台,整合了我们整个自动化运营的各个方面,数据中心经理通过这个平台,可以开展资源管理、容量管理、部署交付等等各种运营管理工作。甚至我们的第三方外包团队,他们也可以通过这个平台去做第三方的一线的日常运营工作,他们做的工作质量、效率等等,数据中心经理都可以一目了然的看得到,对外包的管理也非常有效。

这里可以看到我的IDC资源、数据,通过分散拉取不同的系统数据,汇总、展示给我们的运营管理人员,甚至给管理层去了解。不同的IDC的资源分布、容量使用情况,都非常清晰。以往要看某个机房的电流利用率,还得去现场抄表、统计、分析,现在实际上我只要现场去抄一次表,汇总到我的系统里面,系统帮我们自动分析这个机房机架的电流使用情况、利用率的变化情况,它可以根据你的机房这段时间服务器的搬迁、上下架量或者说设备的变化量,平台去主动的给出变化提示,你的机房在哪个机架这段时间做了什么变化,你在下一次做这个容量分析、利用率分析的时候,只对变化的机架做分析就可以了,不需要再全量的做机架的电流采集、分析。

另外,比如资产的管理,收到一个需求,需要在哪个机房调出一些资产或者调入一些资产,可以自动的生成一个工单派到我的第三方现场,现场人员通过接到这个工单,就知道这个设备要调出或者迁入,迁入到哪个库,调出是调出到哪个库,他直接在系统上面就会自动派单,自动做一些初始化的工作。

最后这张图,想表达的就是我们数据中心的整体可靠性有两部分,一个就是建设的时候基础架构的建设硬可靠性,还有一个是后期运营的软可靠性。一个数据中心的运营人员、管理人员对数据中心管得好不好或者到不到位,并不是说你的机房不出问题就一定管得好,如果你能把一个T2可用性的机房管理成为T3的机房,这个才是数据中心经理的能力,能把运营成本节约10%甚至20%,这才是数据中心经理管理的能力。这里想表达的就是我们未来在保障数据中心可靠性这一块的方向,重点是在运营软的方面去做提升。

如果大家有更多想了解的信息可以关注腾讯数据中心微信公众号,同时我们也非常欢迎在座的运营商、厂商以及其他行业的伙伴能够和我们一起与工信部加强沟通和合作,在工信部的领导下把我们相关的数据中心运营标准规范给做起来,让它能够有效落地。

我今天的分享就到这里,谢谢大家!

版权声明:本文为腾讯数据中心原创,版权均属“深圳市腾讯计算机系统有限公司”所有,未经官方授权,不得使用。

本文部分图片来自互联网,如果涉及到版权问题,请联系serenadeyan@tencent.com。

0 人点赞