2014年9月10日,腾讯IDC平台部在北京腾讯汇举办了第一届腾讯数据中心分享日,主题为“开放创新,合作共赢”。此次分享日邀请了工信部电信研究院、BAT互联网公司、国内外主要运营商、主流厂商合作伙伴以及行业媒体等,一起商讨如何打造中国的数据中心生态圈。会上腾讯数据中心高级总监杨晓伟介绍了腾讯从第一代数据中心到第三代数据中心的发展历程。下面是其分享内容的速记材料。
首先我们通过这段视频来了解一下腾讯数据中心在过去这八到十年从第一代到第三代完整的发展过程,后面我们重点讲一下腾讯为什么要用TMDC。
腾讯最早的数据中心可以追溯到2000年。当时在深圳的东门,腾讯向电信租赁了第一个IDC;到2002年开始走出深圳,在上海张江,有了腾讯第一个异地的数据中心;2004年,深圳沙河IDC成为第一个超过五千台服务器的大型数据中心;2007年,开始走出中国,在美国硅谷有了第一个海外的IDC;2007年,第一个自建的数据中心在深圳宝安落成,这也是腾讯第一代数据中心的典型代表;2008年启动、2010年交付的天津数据中心则是腾讯第二代数据中心的典范,开启了大规模数据中心建设之路;2012年开始,腾讯开始了第三代数据中心的研发和建设,从宝安四期到天津二期。
截至目前为止,腾讯在全国已经形成华南、华北、华东三中心的均衡布局,在十三个城市拥有超过58个数据中心,全部用电负荷超过了120兆瓦。在海外,腾讯也初步具备了全球覆盖的能力:中国香港数据中心覆盖东南亚地区,多伦多数据中心覆盖美加及北美地区,此外,在圣保罗、非洲以及欧洲都有IDC加速点,来支撑类似微信这样的国际型业务。
腾讯第一代数据中心始于2007年。当时是在深圳宝安租的一栋厂房进行改造,采用的是传统的电信机房解决方案,包括单路供电,N 1系统,风冷空调,当时PUE在1.7左右。后来在宝安二期我们也尝试做一些局部的优化,比如把单机柜功率密度提高到6KW,同时封闭冷通道,PUE逐步有了些下降,做到1.58。
2008年,天津项目启动,我们开始了腾讯第二代超大规模数据中心的建设。从开始拿地到最后交付,前后差不多用了三年时间。第一次建设这么大规模的数据中心,经验比较欠缺,因此周期还是显得比较长。在第二代数据中心技术中,我们已经开始采用模块化的设计思路,采用大型离心式冷水机组,水侧及风侧的自然冷却等节能技术。服务器部署按照每周一千台的部署能力进行设计。在天津二期我们还尝试了一些更加工业化的设计,包括没有柱子的结构,取消高架地板,尝试采用风扇墙自然冷取代精密空调和蓄冷罐等。这个数据中心去年的PUE做到1.41,今年负载进一步上去了,应该在1.4以下。天津数据中心当年是借鉴了美国最新的技术成果,包括冷热通道隔离、自然冷却等,当然现在回头来看这些技术已经不再新奇。这里想重点提一下的是,腾讯从第二代数据中心开始已经全面由气体消防改成水消防了。气体消防跟水消防当然各有优劣,一个最大的区别在于,水消防对设备的损害很大,一旦喷发,几乎所有的设备都会受到损害。但水消防对人是无害的,气体则不一样,如果喷放时人员未及时撤离,可能对人的生命形成极大威胁。因此我们从天津开始,已经开始全面用水消防来取代气体消防,目前国外大多数据中心也都是采用水消防系统。
下面重点介绍腾讯第三代数据中心技术——TMDC。从组成上看,TMDC主要包括微模块、市电直供加高压直流的供电系统、腾讯V3.5网络架构以及阿凡达自动化监控平台等几个部分。可以简单认为若干个微模块就组成一个TMDC的机房。
从微模块的关键的技术要点可以看到,首先是它的高度产品化,它把数据中心里面偏IT的这部分内容打包成一个标准化的产品,并从风火水电中独立出来。另外是模块化,可以看到微模块里面主要的组件包括行间空调、直流电源、电池等,都是很普通的标准化产品,商业化的程度非常高,可以方便我们灵活配置这些组件,随时减配或增配;同时还支持在线的扩容,比如我们的直流电源模块,就可以在线插拔。还有一个很重要的变化就是TMDC采用了高压直流系统取代传统交流UPS。大家知道UPS在数据中心里面是一个高危设备,它里面的电容等器件可能引起火灾或者爆炸等特大事故,因此我们在这里把传统的交流UPS变成了直流,将市电直接送到服务器,高压直流备份,整体供电效率超过97%,远远高于传统UPS的供电效率。在制冷方面,微模块采用行间制冷的空调,送风距离短,热交换效率非常高,传统数据中心冷量浪费的情况也得到很好的解决。最后,在结构上,微模块是可拆卸的,这是它跟集装箱数据中心最大的区别。这个可拆卸的特性使微模块可以适应国内大多数厂房的条件,对建筑并没有什么特殊要求,而且方便拼装、改造、搬运。每一个微模块可以看作一个微型的数据中心,可以完全独立运行,具备自愈的能力。
这是腾讯从2009年启动TMDC的研发开始到现在发展的路径。可以看到我们用了近半年的时间来做研发,一直到输出1.0的技术标准;从2010年5月到2012年3月,我们用了将近两年的时间在实验室进行试运行验证。我们在腾大实验室搭建了两套微模块,跑了一年多的运行数据。经过这个实验后腾讯就做了一个版本的升级,开始在宝安做小批量的试点。最开始试点在宝安是12套1.0版本的微模块,接下来2.0版本的也有9套在宝安试运行,这样差不多跑了将近一年的时间。在经过实验局和小批量试点之后,2013年开始全局推广,首先腾讯在蛇口跟深圳电信首次以微模块的方式合作建设,同时采用了整机柜技术;之后在深圳坪山新区跟联通也是以微模块的方式合作,有60套微模块的规模;再后来是腾讯天津数据中心二期全部采用微模块技术,可容纳超过10万台服务器。再往后腾讯跟电信合作的深汕、青浦数据中心,也分别将于今年年底和明年投产。从整个发展过程来看,其实我们每一步走得都非常小心谨慎,做了很多模型梳理和标准化、版本化及接口、结构、工艺等细节工作。因为TMDC这个技术算是腾讯在国际上的首创,美国也没有,国内的相关产业到底怎么样,产业链是否会积极跟进,都有很多未知的因素。所以,这个过程是谨慎再谨慎。
接下来我们看一下,TMDC到底为腾讯带来什么好处。简单看一下中美数据中心的生态对比。大家可以看到,从建筑结构上看,美国的数据中心都是单层大开间的仓储式结构,这种结构最便于做模块化的设计,但在中国则可能要盖几层楼,受制于地块容积率、建筑覆盖率等硬性条件。这样盖两层、三层,甚至五层楼的结构,就会带来很多制约。比如在美国就可以用集装箱很方便地进出,因为他们是单层仓库,但在中国集装箱就上不了楼,这是一个很大的制约条件。2009年,我们去美国考察模块化数据中心,其实主要就是去看他们的集装箱,但是回来之后就发现,集装箱在中国其实根本很难落地,像宝安机房这种五层楼的厂房就很难推进去拿出来。腾讯必须要做一些变化。当时我们就否定了集装箱的方案,而是把它变成可拆卸的,里面用的技术还是借鉴了集装箱的解决方案,也可以说是一个可拆卸的集装箱。另外一个就是网络,大家都非常清楚美国的网络生态非常好,在东部和西部任何两个地方,它的网络条件可以认为是没有太大差别,而中国则受制于各地区的网络差异,尤其西部地区网络条件差,因此国内的大多数数据中心还是集中在沿海发达地区,而沿海地区无论从电力还是气候其实都并不适合建设大规模数据中心。另外还有一个就是自然条件,比如facebook的数据中心可以放在沙漠地区,在一个低温且空气干燥的环境全部采用自然风制冷,而在中国这种技术可能就会受制于很多地区因素,包括空气质量等。我们在天津一期尝试采用了空气侧的自然冷却,但是空气中的含硫量太高,导致硬盘故障率上升很快,脱硫方案成本又非常高,后来没办法只能关闭自然冷却,改回内部循环。
TMDC最大的好处是产品化,它把IT这部分的内容跟数据中心的土建内容完全分开了,这在以前是紧耦合在一起的。以前我们拿一块地要去报建,必须以数据中心的名义去报建,报建完了之后再做设计,设计就同时包括了建筑设计和机房设计,这两部分设计可能需要同时去做,甚至机房设计应该先于建筑设计去做,才可能把机房内部的所有工艺条件都提出来。这个过程中就有很多有矛盾的地方,很多时候建筑设计走得比较快,他向机房要工艺条件,机房侧提不出来。因为你现在做这个设计,机房可能是两三年后才交付,相当于三年前需要提三年后的准确条件,所以就造成了很多的矛盾。而有了TMDC这种方式,我们就可以有一些新的想法,比如我们拿了一块地之后,不一定按照数据中心的名义去报建,我们可以先以一个最简单的厂房形式去报建,把楼先盖起来,同时也不用考虑分割机房一、机房二,可以是一个大开间。等到厂房盖起来,如果说这时候需求还不太明朗,我们也可以把这个楼先放一放,过一年或者两年之后再来重新启动。第二步我们可以把一些基础的水电配套管路做好,然后第三步把柴发、冷机等基础设施装好,这个时候整个土建部分就完成了。IT这一部分,依然可以先空着,后面就完全根据你的需求去下单定制就可以了,因为微模块部署速度非常快,后面我会讲它最快六周就可以完成交付,所以我们就不用急了:今天要一套,我就先下一套的订单,过一段时间我的需求又来了,就再下五套的订单。就像搭积木一样的,我们不用一下子把这个空间填满,而是根据实际业务的需求分批交付,这样就可以做到一个很精确的分期投资的策略,保证数据中心的投资回报。
去工程化,这个是非常明显的,实际上TMDC把原来数据中心工程建设里面,包括机房精装修,高架地板,回风天花,列头柜、配电柜、空调、消防、监控,现场测试验证等工作全部集成在微模块这样一个产品里面了。这样的话,原来现场大部分工程内容都可以在工厂预制完成,现场部分,微模块从下单给工厂,然后到现场拼装完成只需六周的时间就可以完成,现场组装的时间更是缩短到一周,有十来个工人在现场就可以完成几十套模块的安装,不像以前可能会有几十上百个工人在现场做这些复杂的工程安装。
我们讲互联网有个定理叫做“唯快不破“。TMDC也是这样。微模块的部署非常快。如果数据中心从一个空地块选址算起,到数据中心建设交付,在第一期的工程里面,可能前面跟土建相关的选址地勘、规划、设计、招投标、基础建设这些方面,其实TMDC跟传统方式是差不多的,最后在IT部署这一部分可能会省大概一两个月的时间,假设原来传统方式可能会用到24个月时间,用TMDC大概是22个月左右的时间。但到了第二期,这个区别就非常大了,如果按照传统方式,需要在原来的基础上做一个扩容,那么从蓝图、招投标和建设整个过程还是要重新走一遍,但是TMDC的话只需要下单部署,现场安装就可以了,可以从半年多缩短到六个星期,从总的时间来看,实际上差不多可以省七个月的时间,这个是非常可观的。
大家知道,数据中心是为服务器服务的,而服务器有很多种机型,不同机型的功耗可能会差别很大,像腾讯的服务器类型中,功耗高低差别两倍以上的都有。这种情况在传统数据中心里也很常见,经常会有不同功耗的服务器混杂在一起。但是在最开始设计这个数据中心的时候并我们并不知道高功耗机器放在哪里,低功耗机器放在哪里。对于传统的数据中心我们只能采取就高不就低的原则,每一个机架都得按照高功耗的功率去设计,这样就造成数据中心设计容量远超过实际使用的容量,尤其是空调冷量,造成很大的浪费。而且在数据中心投产之后,可能会出现高功耗和低功耗的机柜是混杂在一起的情况,这样可能也会产生一些局部的热点。TMDC把制冷系统从整个机房离散到微模块里面了,在微模块里可以自行配制高低功耗类型,比如深色的就是高密度的模块,这个浅色的就是低密度的模块,腾讯可以去设计不同的功耗等级的微模块。这样的话,对整个机房大开间来说,单个高密模块,低密模块放在哪里其实都没有什么关系,它是在模块内部制冷的,这样离散之后在模块内部就解决了这些服务器功耗差异的问题。当然还有一种做法,就是把所有微模块的功耗密度都设计成一样的,不用去设立高功耗模块,低功耗模块的区别。在微模块内部,可以同时有高功耗和低功耗的服务器,但这没有关系,因为微模块内部的制冷空间非常小,行间制冷的优势也就体现出来,它可以在一个小空间里面形成一个相对比较均衡的静压箱,这样微模块内部服务器负荷的差异也可以很容易去解决,这是行间制冷一个比较有优势的地方。
另外我们看一下生命周期。服务器的生命周期,大家知道一般是三到五年,但是数据中心的生命周期大概是十到十五年,也就是说对于一个数据中心生命周期走完的整个过程中,服务器的生命周期可能要迭代三到四次。大家知道服务器现在发展非常快,三年后,当这批服务器退役的时候,三年前这些服务器配套的网络、布线在三年后可能都已经不符合新服务器的要求了,就必须要做一些改造。传统数据中心下最大的问题是什么呢?传统方式下可能你这个机架上服务器的上架时间可能是先后不一的,有一些机器2011年上的,有些可能是2013年上的,相差两年时间,你到2011年这批机器退役的时候,其他机器还没有到时间,这样就导致整个机架不能同时去退役,就产生了碎片。TMDC怎么解决这个问题呢?其实微模块就是把机房的颗粒度缩小到一个微模块里面,那在每个微模块里面很容易实现整体上架,整体退役,当采用同一个批次的服务器,升级改造做起来就相对简单,只需要把这个微模块断电就可以了,断电和其他微模块物理隔离开来,改造就变得非常容易,而且每个单独微模块的改造不会影响到其他模块的正常运行。
还有,大家可以看到微模块有一个最大的好处,刚才讲了它可以拆卸,当数据中心需要做一些调整,比如说这个数据中心需要关闭了,或者说这个数据中心到了退役的年限,合同到期了等等,但微模块有可能是在后面分期上的,这个微模块可能才跑了五年时间,这个时候跟着数据中心一起退役就非常浪费,那么我们可以把它拆下来继续使用,比如拆下来后搬迁到其他的数据中心去。刚才我们讲2007年腾讯做了第一代数据中心是在深圳宝安,到明后年深圳宝安面临退役时,这部分微模块就可以拆下来搬到天津去用,这是一个非常保护投资的做法,通过这样一个搬迁可以节省的成本必须是上千万的级别。
微模块数据中心的建设成本是大家都非常感兴趣的话题,这里我们不太方便去讲具体的成本数字,但是我们在这里要非常感谢在座的微模块厂商,包括Emerson、Dell、HP、华为、中兴等等,正是在他们的积极支持下,导致现在微模块的造价一直是直线下降的趋势。截至目前,在腾讯还比较少的采购量上,我们已经做到了采用TMDC比传统的数据中心造价更低。随着以后的量越来越大,我想这里还会有下降的空间。
运营成本是TMDC最有优势的一个方面,刚才我们也讲了,通过封闭冷热通道会有一定节能,行间制冷也会有一些节能的提升,高压直流也会在效率上至少提升3%,市电直供会减少一些线损,市电送到服务器供电效率我们可以认为是100%,这里面也会有一些节能。还有配电更加简化,原来UPS方案有前级、后级的低压配电以及STS投切等,这些统统去掉之后,在投资成本、场地占用、能耗方面有明显的减少。总的来说在Opex上应该可以达到20%到25%节省效果。如果说是一个十万台服务器规模的数据中心,每年可能节省的电费将在2800万元以上。
这是去年工信部到宝安数据中心做的一个实测的数据,测试的几个腾讯机房单元都是在同一栋楼,气候条件,包括空气质量,水系统等等都是完全一模一样的。上面1.689就是腾讯第一代数据中心,采用风冷空调,机柜内送风,传统的电信方案。在宝安4.1期,采用了腾讯TMDC v1.0的版本,但是用的是UPS的供电,风冷型冷水机组。4.2期就是腾讯现在在推的v2.0的TMDC,它跟v1.0最大的区别就是,配电方面改成市电加高压直流,可以看到这个对比其实也是非常明显的,v2.0已经比v1.0要低差不多将近0.16的PUE。微模块内部的PUE实际上已经是低于1.1了,达到1.06。这个内部不包括水系统的功耗。
最后再简单总结一下, TMDC在技术上的革新主要表面在以下几个方面:
第一,从建设模式来看,它把原来耦合的土建和IT建设解耦了。我们可以配合拿地政策做一些分期的投资,分期报建,分期验收,反之,以前可能需要一次性综合投入,项目可能是一个整体验收的要求,造价很高。
第二,从数据中心资源运作的角度来看,以前腾讯的资源运作基本单位是服务器,以服务器为单位的话容易产生碎片,当我们以微模块作为一个资源运作单位以后,整体上架,整体退役,而且方便搬迁,可以从一个城市调度到另外一个城市,因为微模块是标准化的资源,可以很方便支持全局的调度。当服务器机型发生变化的时候,TMDC在资源方面可以做重新的改造,重新改造之后重新投入使用。
第三,在运营方面,实际上也带来很多变化,以前还是以服务器为一个基本单位,当业务需要做一些分布的冗余,可能就需要跨机房做物理分布,业务放在这个机房,同时也要考虑同城的容灾。在微模块方式下,微模块本身就可以作为一个容灾的基本单位,实际上在同一个园区里面,可以跨微模块去做这种分布,会更加的灵活和节省投资。此外,传统运营模式下,风火水电等基础设施的运营跟IT运营是重叠在一起的,一个数据中心经理需要要面对十几、二十几家的供应商,它的运营管理难度包括运营效率都非常低,现在把这一部分打包在微模块之后,界面就非常简单。
腾讯为微模块技术申请了专利,但我们的目的不是用来限制别人,只是单纯的用来保护自己。我们的TMDC技术可以说对业界是完全透明的,任何一个企业都可以使用腾讯的技术成果。我们也欢迎大家积极来使用和推广。
大家可以关注一下“腾讯数据中心”和“腾讯网络”这两个公众号,后续会有一系列的精彩报道包括一些技术话题我们都会在上面做一些分享。好,我今天汇报内容大概就是这些,谢谢。
版权声明:本文为腾讯数据中心原创,版权均属“深圳市腾讯计算机系统有限公司”所有,未经官方授权,不得使用。
补充说明:文中部分图片来自互联网,如果涉及到版权问题请联系wizardgao@tencent.com。