序言
伴随着腾讯业务的不断发展壮大,腾讯数据中心走过了21年的光辉历程,期间不断地推进了数据中心技术架构的迭代和升级。为了适应海量服务器快速、低成本的部署和运营要求。早在2012年,腾讯就推出了第三代数据中心架构——微模块架构。经过八年的应用实践和优化完善,微模块技术架构已经发展成为数据中心行业的主流技术;为腾讯第四代T-Block技术架构升级奠定了坚实的基础。本文将从运营实践的视角带领大家去回顾腾讯第三代数据中心技术的最佳实践。
什么是微模块?
微模块(Modular Data Center,MDC)是腾讯对数据中心标准化、模块化、产品化的思考与探索,也为第四代T-Block技术发展奠定了坚实的基础。微模块由机柜、配电单元、HVDC、电池柜、列间空调、管控柜、密闭冷通道等组件构成,每一个微模块都是一个独立完整的机房。
图1 腾讯MDC视图
标准化与灵活性的完美平衡
典型的腾讯微模块配置分为R18和R12两种,分别配置8kW机架18个和12个。两个版本都通过产品设计规范详细定义了每一个设备的规格和容量,真正做到了标准化,产品化。通过标准化的组合套餐,设计规划变得十分简单,只要确定模块的数量即可。同时,由于配置标准化,采购成本横向对比性更强,可以使采购成本更透明。
标准化虽好,但不是越高越好。标准规范过于僵化会牺牲掉灵活性。腾讯微模块做到了标准化与灵活性的完美平衡。首先,我们可以根据建筑空间的尺寸来灵活选择适配R18还是R12。实际应用中,还可以根据模块的总功率来灵活调整机柜的数量。其次,8kW只是我们定义的平均功率。由于良好的空调气流组织,单机架最高可支持30kW。最后,供电方式可根据客户使用习惯采取“HVDC 市电”,“UPS 市电”,“双HVDC”等多种模式。
互联网业务需求的增长往往具有不确定性,给机架资源规划带来了很大挑战。微模块所有部件都实现了工厂预制,现场只需要进行简单的拼接就可以完成安装——满足业务快速部署的需求。另外,前端配电和冷冻水主管道可以一次性建设到位,预留好开关和阀门接口,微模块按照业务需求分批部署。最后,对于服务器机位已全部上满,但电力容量却有富余的机房,可以在原规划的基础上增加微模块的数量,对电力和制冷容量进行挖潜扩容,实现资源的最大化利用。
另外,微模块采用封闭冷通道,通道密闭门采取独立门禁控制。对于小型托管用户,通过修改相应微模块的门禁控制权限即可实现用户之间的物理安全隔离,无需支付额外的时间和金钱成本安装围笼。
配电系统的可靠性和高效性
图2 典型MDC供电架构示意图
如图2,腾讯微模块供电系统采用2N配置。两路10kV市电来源于两个不同的上级变电站。高压配电柜和低压配电柜均设置了母联开关,确保MDC两路供电的高可用性。MDC侧采用一路市电 HVDC。HVDC的市电输入来自A、B两路,在一路市电中断时,不影响HVDC正常工作;即使在双路市电同时中断的情况下,HVDC后备电池也可以维持IT设备连续供电,直到柴发启动供电。甚至是在双路市电和HVDC同时故障的情况下,由于每个微模块都采用独立的供电单元,故障影响范围也控制在单个模块内。
相比传统UPS架构,HVDC结构简单,维护难度较低,发生故障时,现场运维人员能够有效处置大部分故障场景,无须等待厂家工程师的到来,极大保证了机房运营安全。
“市电 HVDC”的配电架构,最大化压缩了供电系统能耗。高压直流相比UPS少了逆变器、静态开关等元器件,大大降低了供电设备自身能量损耗;配合模块休眠技术,即使是在低载模式下,HVDC也可以实现94%以上的高效率;另一路采用市电直供,效率更是高达100%;因此“市电 HVDC”综合供电效率为97%。
冷冻水系统的高可靠性与普适性
图3 典型冷冻水系统示意图
如图3,典型的腾讯微模块数据中心采用水冷冷冻水方案。管路系统采用环路设计,可满足在线维护要求。水泵与冷机采取群机对群泵的配置,单个冷机故障时,水泵的开关状态无需改变,大大提升了备机开启的速度。冷源采用高效变频冷水机组,末端采用列间空调和密闭冷通道。
冷冻水系统非常容易实现连续制冷。由于水的比热容大,可以作为理想的蓄冷载体。只要在主管中设置蓄冷罐,即可轻松实现连续制冷。蓄冷罐设计容量通常为15分钟。实际运营中,IT负载未满载时,蓄冷可支撑的时间更长。并且,由于水的比热容大,在冷机停止工作后,冷冻水管道系统中的水温也是缓慢上升的。相比风冷DX空调,冷冻水空调的送风温度上升趋势会慢得多,可以留给运维人员充分的故障处置时间窗口。
水的比热容和密度都很高,是天然理想的制冷剂和载冷剂。水的体积比热容为4.2*10^6J/m³·K,空气的体积比热容为1230 J/m³·K。意味着单位体积的水温度上升一度,吸收的热量是单位体积空气的3414倍!如图4,输送1000kW制冷量,水管只要DN150的小管,而风管却要10根1600*800的巨型风管!
图4 水管尺寸与风管尺寸对比
(冷冻水管径基于5℃温差计算,风管管径基于8℃温差计算)
由于冷冻水载冷效率极高,能够轻松的实现远距离供冷。因此无论是多层建筑还是大平层的建筑,冷冻水系统都可以应对自如,具有非常好的建筑适应性。
列间空调气流组织
传统的房间级空调,机房内几百个机架共享一个大冷池,就像是采用大水漫灌一样,容易出现旱的旱死,涝的涝死。空调的出风温度和送风量取决于机房内温度最高的那个点,木桶效应十分明显。为了保证不出现局部热点,空调的送风温度无法提升,送风量也无法降低,严重制约空调系统节能降耗。
图5 房间级空调气流组织
列间空调贴近服务器机架,每个微模块根据机架负载进行精准控制,就像是采用滴灌技术一样,冷量分配可以做到按需分配。列间空调的风机转速和水阀开度可以实现0%~100%的无级调节,精确控制空调的送风量和送风温度。由于送风的精准性,列间空调的设定送风温度可以更高,送回风温差也可以更大,空调总风量需求更小。
图6 列间空调气流组织
优秀架构 精细化运营造就低PUE
根据制冷原理可知,降低冷凝温度,提高蒸发温度可以显著提高制冷效率。微模块采用冷冻水系统,冷却水温度可以趋近于室外湿球温度。同时,由于微模块气流组织优越,送回风温度都可以提升,因此,冷冻水供水温度可以相应提高,从而提升冷机蒸发温度。在相同室外环境温度下,水冷冷机的COP显著高于风冷DX。
冷冻水型精密空调,其主要耗能部件是风机。而风机的功耗=风量*风压*风机效率。列间空调紧贴IT机架布置,送风距离短,阻力小,设计风压小。同时,列间空调设计送回风温差大,同等制冷量下,列间空调风量更小。如表1,列间空调无论是温差还是风压均比房间级空调要低。因此,同等制冷量,列间空调的风机功耗是房间级空调的30%~50%。
表1 房间级空调与列间空调设计参数对比
空调类型 | 典型机外余压 | 典型回风温度 | |||
---|---|---|---|---|---|
房间级空调 | 50Pa | 8℃ | |||
列间空调 | 10Pa | 15℃ |
腾讯微模块配合冷冻水系统调优可以实现低PUE。配合提升冷冻水温,水泵变频,风机调速,冷却塔、冷机、列间空调台数控制等综合调优,即使在全年平均温度较高的华南地区仍然可以实现全年平均PUE1.3以下。在长江以北地区,还可以配合采用板换,实现水侧自然冷却。
图7 MDC数据中心运营优化措施
全球知名绿色认证组织USGBC(美国绿色建筑委员会)对腾讯第三代数据中心进行了权威评测,对腾讯机房取得的良好节能成绩给予了高度评价。
腾讯深圳光明数据中心
实测年度PUE值为1.26(2018年1月1日-2018年12月31日)。最低的月均PUE值达到1.23,最热月度PUE值控制在1.29以下。
腾讯青浦二期数据中心
实现了年度PUE值为1.29(2018年1月1日-2018年12月31日)。最低的月度PUE值达到1.24,最热月度PUE值控制在1.33以下。
此外,采用冷冻水系统可以较容易实现热回收。腾讯天津数据中心园区采用热泵对机房冷冻水余热进行回收试点。一方面,热泵机组把机房的冷冻水回水进行了降温,减轻了数据中心冷机负载;另一方面,较高温的热源提升了热泵机组的制热效率,可谓一举两得,高效节能。
全方位打造智能化管理
巧妇难为无米之炊,数据是一切分析的基础。腾讯微模块配备了完善的传感器群,全方位深入感知各主要部件的工作状态和能量消耗。列间空调内置了送回风温度传感器,风机功耗,水阀开度,供水温度等传感器,可以直接通过智能接口采集上传数据。HVDC和综合配电柜配备了众多的智能电表,可以监测各主路和支路的电流、电压、电量等数据。每一节电池都配备了电池监控仪,及时发现电池故障隐患。此外,每个机架都配备了上、中、下三个温湿度传感器,即使是局部微小的热点都可以被精确感知。
通过大量布置传感器点位,保证了数据采集量。但要对数据进行有效分析,还需要经过标准化、结构化的处理。腾讯定义了微模块的南北向接口,对每个传感器点位的定义和命名都进行了标准化。标准化以后的数据,只要通过一根网线就可以轻松接入到腾讯智维平台。通过一套统一的告警逻辑即可实现全量腾讯微模块的监控、告警。如图8,腾讯设置了专门的数据中心监控服务台,7*24监控全球机房的设备运行状况。
数据除了用于设备的健康状况管理之外,节能优化也是很重要的应用方向。在传统机房进行节能优化时,最痛苦的事情莫过于数据采集点位不足,或者数据采集了但没有保存足够长时间。由于缺乏有效数据支撑,现场调优依靠人工测量手抄,无法获取到足够多的有效数据。而腾讯微模块传感器遍布每个设备的末梢,且采集数据并永久存储到腾讯智维平台,可以根据专家经验和AI相结合进行深入有效的节能调优。
图8 腾讯数据中心监控服务台
成熟产品带来最优TCO
俗话说一分钱一分货。有没有高配低价,性价比爆表的产品?有的!腾讯微模块就是这样一款爆品。经过8年应用实践,微模块机房已成为腾讯数据中心的主力军,机架数量占比超过六成。随着产品技术的不断标准化和采购需求量的不断上升,微模块产品相关配套的产业链已非常成熟,单个微模块CAPEX比早期下降60%以上。
腾讯微模块技术具有良好的节能性,大大降低OPEX。如图9,截至目前,腾讯采用MDC技术的20多个数据中心园区(其中7个位于炎热的华南地区),年平均PUE低至1.31,最高峰值也控制在1.35以内,在如此大规模、快速建设的前提下实现了良好的性能一致性。
图9 MDC与传统数据中心PUE值对比
从以上数据可知,腾讯微模块机房比传统机房PUE低约18%。假设某数据中心IT总功率为6000kW,微模块机房每年约可节约800万元电费,按10年生命周期,则可节约8000万的费用,运营成本节约效果显著!综上所述,腾讯微模块技术不仅技术架构优良,而且全生命周期总运营成本也十分优秀。
结语
时间是检验一切的试金石。腾讯微模块技术久经沙场,大规模应用已超过8年,大到系统小到设备元器件都经过了时间的淬炼。经过运营实践的不断的优化改进,技术已至臻完善。它凭借其高可用、灵活简捷、绿色节能、智能化管理、较好的TCO等突出优势,写下了浓墨重彩的一笔。
作为继MDC架构之后的又一次技术架构的飞跃,腾讯第四代T-Block技术已经在多个大型数据中心园区建设和投产,我们将致力于打造新一代模块化、标准化、产品化的绿色数据中心最佳实践。
致敬经典,开创未来。
未来已来,让我们拭目以待。