Why TMDC?(下)

2018-03-16 10:11:44 浏览数 (1)

-【定义与缩略语】

CapEx:Capital Expense,一般是指资金、固定资产的投入。对数据中心来说,可以简单理解为拿地、建楼、购买机房内一切基础设施以及IT设备的一次性投资。

OpEx:Operating Expense,即运营成本,对数据中心来说可以简单理解为每年为维持数据中心运营的费用性(现金)支出,如电费、柴油、人力、维保等等,当然也包括折旧。

【正文】

最开始做TMDC,对于它究竟为我们带来什么好处,想得最多,也觉得可以预判的主要是快速部署以及更好的能效、更好的OpEx,后来在TMDC从实验局到小批量试点再到迄今已近两年的实际运营,这个过程中我们又发掘出很多潜藏、关联的好处,而且非常有价值;比如基建与IT的解耦合。

下面就把这些已经发生或者可以想见的收益一一列出,也许对于不同行业(互联网/金融/政企),不同角色(甲方/乙方/第三方),对于这些观点会有不同的解读,欢迎讨论;这里所列出的,仅仅代表腾讯作为一个互联网企业,或者说作为一个数据中心用户的观点。

我们只是简单的想分享一下我们的喜悦。

【基建与IT解耦合】

先来看看在传统的数据中心建设模式下,通常是怎么做的。

首先,我们会拿一块地,跟政府说要建数据中心。但是这个时候往往业务的需求并不明朗,建多大规模,会有哪些机型的服务器进驻,都存在极大的不确定性——本来想先拖一阵子再说。然而政府不干了:你回去查查用地协议,上面有最晚动工的期限,千万看清楚咯。于是项目就风风火火地启动了,地勘,报建,找咨询公司,找建筑设计公司,找机房设计(IT设计)公司.....由于报建是以数据中心的名义,建筑设计出蓝图的时候机房内部的平面规划、隔断以及预留孔洞都必须全部确认好,因此经常看到建筑设计跟机房设计追要工艺条件,而机房设计因为本身启动滞后,业务需求也不明朗,工艺条件提得相当辛苦,还埋下一大堆变更的种子(理想的顺序是机房设计先行,从内向外逐步明确所有条件,但往往因为规划报建等原因,顺序是反过来的)。等到设计差不多了,还得找一家有实力的机电总包单位来承接工程阶段的建筑装修和机房精装修。能够把建筑和机房两部分工程同时做精的单位,其实在国内还并不是太多,譬如架空地板这个活,真正能干得漂亮的,就很少。

那么,TMDC会为我们带来什么变化呢?首先,TMDC把数据中心IT部分标准化、模块化了,而IT部分的关键技术指标一旦确定,意味着IT对建筑结构的要求只剩下平面、层高以及承重这几个主要参数,而且,经过对集装箱的改造,TMDC对建筑的要求已经没有任何特殊之处(梁底3.2米,承重800kg),普通的厂房结构即可满足。从这里开始,我们就可以尝试一些新的建设思路了:项目用地完全可以先按普通工业厂房报建,简单,快捷,结合TMDC对建筑的基本要求先把楼房盖起来再说。条件合适的话也可以同步把市电引入、高低压配电以及供回水管道一次性做到位,留下TMDC的接驳口。这些工作属于普通大楼建设的常规性工程内容(机电部分也是常规的高低压和水系统),因此施工单位的可选范围一下子扩大了一个量级,不一定非要找懂机房精装修的承包商了,这个总包单位不需要关注机房内部,只要把外围基础条件完成即可。

基建和IT的解耦合,是TMDC带来的最朴素的变化,它直接引发了后述的一系列收益。不过上面这段实在是又长又拗口,我们来尝试打个比方:小明多年来一直从事公寓租赁(也就是深圳那种一栋一栋的农民房啦)。以前小明喜欢搞大通铺,在一个大房间内提供一个一个的床位出租。修房子的时候其实并不知道未来床位的需求该是多少,完全是拍脑袋,或者把房间填满为止;结果装修好的床位并不能全部租掉,长期空出很多床位来。后来小明去日本旅游,发现日本人很多酒店的房间(尤其是洗手间)几乎一模一样,就像是买来现成的模型一搭就好了。回国后小明福至心灵,也把自己的公寓楼隔成一个一个的小房间,而且找工厂预制好房间的所有结构件以及内部的家私电器等。然后,小明把隔壁一栋空楼买了下来,但不做精装修,等到有需求了,才下订单给工厂,装一个房间前前后后只需要一周时间。。。。。

【快速部署】

一个数据中心的拔地而起,从选址、地勘、规划、建筑设计、机房设计,到招投标、基础建设、机房建设、设备测试、系统测试、验收并交付运营,差不多都得2~3年的时间。对于业务变化较快的行业,尤其互联网,这个等待的时间显然有点太长了。

TMDC在完成标准化、产品化的华丽转身之后,把IT部分的工作剥离出来放到工厂去预制完成,因而部署变得更灵活,更快。在数据中心初次建设(一期)过程中,TMDC能帮助缩短的建设周期其实有限(一两个月吧),但是当数据中心进入二期、三期之后,差别就出来了:传统数据中心的扩容通常都需要把蓝图、招标、建设这几个阶段走一遍,最快都要六个月以上;而微模块从下单到现场调试完成,最快只需要六周就够了。

【分期投资,分段建设】

承上,得益于TMDC的产品化和快速部署,数据中心的分期投资计划可以做得更精细,更匹配变化中的业务需求。当大楼建筑和基础水电都已经就绪后,IT部分的部署速度又快到以周记了,我们也就不急了;当实实在在的业务需求来临时,我们再3套、8套、10套地按月/季度向微模块厂商下单,胜似闲庭信步。

为什么要这样费劲地把分期投资精细化,一次性建完不是干净利落么?可别小看,TMDC所包含的IT部分的建设内容(机柜、空调、低压配电、消防、监管控等)从CapEx看几乎占到总投资的将近30%,对一个大规模数据中心来说,30%也可能是个天文数字!相信财经线的同学对这个比较感兴趣,他们会耐心地告诉你分期投资的好处:尽可能减少现金的流出,可以省下一大笔资金占用成本。

【去工程化】

当TMDC成为一个产品,原来机房内属于工程部分的内容,包括地板、回风天花、列头配电、末端空调、消防、视频、门禁、监控以及现场测试验证(包括假负载测试)的大部分内容,全部收拢到工厂去完成了,现场的工程内容自然大幅度减少。

以前一个数据中心的建设工地,动辄四、五百个工人同时在线,热闹!壮观!阔绰!然而PM(项目经理)呕心沥血每天睡不着觉啊,这么多工人的管理,扯个皮打个架,甚至整个安全事故出来,都是心头大石。

我们看美国数据中心的建设工地,其实也见不到多少人,也许机械比人还多。这得益于美国数据中心产业的高度产品化、集成化,当然,美国的人工也太贵了,几百人一耗一两年,谁付得起呀。

【弹性支持服务器机型变化】

从需求来看,一个数据中心的设计包含以下四个基本要素:可用性标准、单位服务器功耗、机架功率密度以及服务器数量。基本上所有的容量设计都是以这四个要素为依据。其中,单位服务器功耗又是一个最根本的变量。

不同企业,不同业务类型,所采用的服务器在机型、功耗上必然存在差异,在同一个机房内的不同机型(接入型/计算型/存储型)服务器,其功耗可以相差一倍以上。但是在数据中心设计之初,我们根本不可能精确地规划好两年后入驻的高功耗服务器和低功耗服务器分别放在哪个机架上。这就是服务器功耗的不确定性。大家知道,传统数据中心的冷却系统是为整个机房服务的,为解决这个不确定性问题,我们只好在机房显冷量的选择上采取“就高不就低”的原则,也就是按照高功耗服务器的标准设计冷却系统的容量。于是,浪费就产生了。冷量浪费或是冷量利用率不高,是目前国内数据中心一个比较普遍的现象。而机房热负荷的不均衡,又是造成局部热点的主要原因。

另一方面,众所周知服务器技术更新的周期要远远小于数据中心的建设周期。换句话说,建一个数据中心要两年以上的时间,这两年内服务器侧可能发生很多变化,可能在最初的数据中心规划设计中是以机型A作为设计依据的,两年后数据中心投产时机型A早已不用了,换成了机型B、机型C......传统的数据中心建设模式对这种变化基本上只有干着急的份,因为在设计定稿之后,类似机架功率密度这种关键参数就很难再调整了。

TMDC的解决方案,简单一句话就是把冷却系统离散到微模块中,让每一个微模块在内部自循环,“躲进小楼成一统”。对于不同功耗的服务器,我们可以设立高密度微模块及低密度微模块,把同类型的服务器集中在同一个模块内(图一),或者把不同机型服务器的热负荷集中到微模块的微环境中去解决(图二,这也是行间制冷送风距离短带来的最大好处);对于服务器功率密度在数据中心建设期间发生较大变化的情况,由于TMDC的电源模块和空调模块具备在线插拔的特点,因此就可以灵活地通过增配/减配来解决这个问题。

回到小明。在以前的大通铺方式下,小明发现客户的需求总是千差万别,众口难调,如果都按照最高标准装修,成本就噌噌噌上去了。后来隔成一个个小房间,小明就按照不同的标准对外提供差异化服务了:套房、海景房、行政房等等;当然更多的还是标准房,标准房内提供若干床位,这些床位之间当然也有好坏的差异,但这些差异就由该房间的owner自己去控制了。

(图一)

(图二)

【数据中心生命周期与服务器生命周期之间】

通常情况下,一个数据中心的生命周期是10~15年,而一台服务器是3~5年。也就是说,在数据中心的生命周期内,将见证2~3轮的服务器更替。

传统数据中心以一个机架作为服务器部署的基本单位。一批服务器到埠,因其承载的不同业务类型、不同计算功能等,往往打散分配到不同区域的不同机架上。长此以往,三五年过后,当我们意识到服务器快到退役年限了,才发现一个机架上的服务器根本就不是同一个批次的,甚至上架时间相差一年以上——整个机架退下来变得困难。

另一方面,服务器技术迭代飞速,两轮更替的服务器之间隔了5年之久,服务器版本可能也隔了好几代,要换成新的服务器,势必要对机架综合布线系统(甚至网络架构)进行改造。在传统数据中心内,如果不能一次性将一整列机架同时退役下来,然后从电源列柜处断电隔离,综合布线改造将变得复杂和困难。

TMDC对服务器退役或裁撤的思考,是整体上架、整体退役。服务器部署的基本单位放大到一个微模块。同一个批次的服务器,可以很容易让他们部署在同一个微模块内,当五年后退役,把微模块断电隔离出来进行改造就行了。

小明又来了。租客退租以后,为了给下任租客提供一个崭新的环境,小明都会花钱做一些翻新的工作,刷刷墙、换换家私电器、换换锁啥的,然后再租给新租客。以前在一个大房间里,想要动什么都会影响到紧挨着的租客,现在租客们都隔在一个个房间里了,随时退随时装修,互不干扰。方便多了。

【数据中心运营模式的变化】

数据中心基建和IT解耦合后,为运营带来更多想像空间,比如,基础运营和IT运营分离。在一个传统的数据中心内,数据中心经理往往需要面对20家以上的供应商、厂商,而且这些供应商之间的责任界面交错、纠结,往往一个故障发生,供应商之间可以借各种理由相互推卸责任。

TMDC带来的变化,可以是将微模块作为一个运营分界线,IT部分隔离在微模块内(甚至可进一步包括服务器和网络设备的运营),微模块外部风火水电的保障则归到基础运营范畴(要求降低了,类似物业的管理内容)。数据中心经理重点看好基础运营和微模块这两个供应商就行了。

此外,当数据中心运营的基本物理单元由机架扩大到微模块后,以前需要通过跨机房实现的业务分布冗余,现在跨微模块就能很好地解决可用性冗余的问题。当一个微模块出现故障,影响范围完全可以隔离在该微模块内,不影响其他运行中的微模块。

当然,TMDC带来的运营模式的变化还包括数据中心监管控系统的革新。这里不再深入了。

还是小明。以前对于怎么管理好形形色色的租客,是很让小明头疼的问题。谁都可以直接来找到他,提一大堆的问题。现在好了,小明把管理责任分配到一个个房间,每个房间设一个室长,小明就集中精力管理好这些室长就行了,时不时敲打敲打,高兴了搞个流动小红旗,激励一下……

【CapEx】

TMDC和传统方式相比,究竟谁的建设成本高?这是个一直被热议的敏感问题。CapEx包含很多因素,对不同的企业来说,计算方式甚至理解都会产生差异,见仁见智;就腾讯而言,我们在目前的数量上已经做到比传统方式低了——嘘!

或者我们换个低调点的说法吧:要把TMDC的CapEx做到不比传统方式高,不难。

【OpEx】

可以说,OpEx是TMDC在成本方面的结构性优势。之前在介绍TMDC的各种会议上这都是演讲的重点,这里不再赘述。简单说,冷热通道隔离大约可带来5%~7%的节能(当然传统方式下也可实施);行间制冷大约可贡献7%的节能;市电直供 高压直流 线损等部分大约是12% —— 理想工况下,TMDC可带来的综合节能大约可达24%。

我们在深圳宝安数据中心的实测运营数据也印证了这一点。下图是去年工信部电信研究院在宝安做的测评结果。可以看到,TMDC2.0和传统解决方案相比,有20%以上的节能,和采用UPS供电的微模块相比,也有6%的差异。

以一个10万台服务器的数据中心来看,节能20%的意思,翻译成比较容易看懂的文字就是:每年可节约电费约2800万元。每年!

【气体消防 or 水消防】

最后还想再啰嗦一下水消防的问题。这个问题跟TMDC无关,是所有数据中心面临的选择。在美国,基本上采用水消防占绝大多数,而国内是反过来,大部分是气体消防。

两种消防方式最大的区别在于对设备和对人的威胁。气体消防对设备基本无直接损害,但对人身安全构成威胁;水消防对人无害,但一旦喷放,所有设备应该是难保了。

腾讯从第二代数据中心开始,已经在全国范围推广水消防。无他,这是一种态度。

Thank for your time!

The End

版权说明:本文为腾讯数据中心原创,文字、图片等版权均属“深圳市腾讯计算机系统有限公司”所有,未经官方授权,不得使用。

注:部分图片来自互联网,如果涉及到版权问题,请与wizardgao@tencent.com联系。

0 人点赞