腾讯公司副总裁Tom在腾讯数据中心分享日的主题演讲

2018-03-16 10:21:43 浏览数 (1)

大家好,非常荣幸今天有机会在这样一个天气晴朗的日子咱们济济一堂相聚在北京腾讯club展开我们第一次的腾讯数据中心分享活动。首先感谢各位贵宾抽时间来参加分享活动,让我们以热烈的掌声欢迎各位嘉宾。

今天虽然腾讯汇会场的房间并不大,但在座的各位刚才Jimmy也介绍过了,全是咱们数据中心生态系统里重量级的专家。希望大家在会中多多互动,多多交流,有什么问题,随时提出来。数据中心圈子也不大,大家茶歇的时候也可以互相认识一下。

首先,我想讲一讲为什么会有这样一个分享日。腾讯在数据中心领域起步比较早,在2006年就应业务发展需要,在深圳租了第一个工业楼宇开始尝试数据中心的建设和创新,07年便开始了第一个20万规模数据中心的设计与建设,也就是明天大家将要去参观的天津数据中心。腾讯在深汕合作区和上海青浦也都拿了地,同时在建两个10万量级的数据中心。这里面天津数据中心为腾讯独立建设与运营,深汕和青浦数据中心则是和运营商合作建设的大规模数据中心。

图一 天津数据中心外景

这么多年下来,腾讯在数据中心领域的探索已经积累了丰富的经验。随着公司在2011年正式提出开放战略,我们在基础设施方面通过我们的公众号也好,通过各种大会小会也好,都在不断将经验、教训和我们的思考与大家分享。今天是我们在这个领域里面一个比较完整的总结和汇报,把我们的经验教训都跟大家分享分享,后面也有我们关于未来的一些设想和思考。

我想还是从Internet发展开始谈起,其实Internet进入中国到今天为止,也就刚刚二十年,PC互联网的发展,造就了整个中国互联网的产业,成就了很多互联网公司的崛起。从2007年iPhone的出现,到2009年的iPad,移动互联网的迅猛发展,3G、4G技术,云计算理念的推广和落实,以及近期非常热的大数据,又将互联网发展提到一个新的高度,对整个数据中心产业链的云端提出了一个非常非常高的要求。

互联网从1969年的雏形开始,有20年的时间主要是在学术界、研究界中应用,大发展则是随着90年代初期PC机的普及才真正进入到普通大众的生活当中。近20多年互联网发展这么好,我觉得Internet的开放与创新理念是其中十分重要的一点。互联网的开放标准,开源项目,开放平台等极大地推进了互联网产业的发展,比如在云计算、大数据领域广泛应用的open stack,Hadoop等,都是基于开源项目。今天腾讯已经建立了一个庞大的大数据集群,单一集群将达到一万台规模,这个系统是基于开源系统并加上腾讯的定制与优化来实现的。

腾讯的一个愿望就是能够连接一切,过去互联网把我们的PC机连接在一起,今天则是将更加大量的移动终端、人和服务连接在一起。通过腾讯的开放平台,包括QQ、微信的开放平台等,很多的接口都在不断开放,让第三方产业链在上面去应用,去实现连接。

图二 分享会现场

我们之前经历过公司业务爆发式增长,数据中心建设疲于满足业务快速增长需求的情况。我觉得在未来若干年,随着Internet和移动互联网的蓬勃发展,云的压力将是非常大的。这样的压力最终将转嫁至数据中心,因而数据中心的发展将是非常关键的。我觉得到今天为止这个领域的标准和开放真的需要在座的专家和生态系统的各个公司一起来探讨、协作、开放,从而实现共赢。

接下来谈一谈腾讯数据中心这方面的情况。分享日就是腾讯数据中心领域开放的第一步,就是希望把我们的一些思想和一些运营的积累以分享的形式来做这样一个开放。除了分享外,我们也会积极参与很多开源项目。之前天蝎项目关于整机柜服务器的研究就是国内三大互联网公司最开始发起,后来越来越多从事云计算的公司非常感兴趣,包括运营商、厂商都参与进来了。上个月我去美国和云计算相关的公司交流时发现天蝎项目在国外影响力也非常之大,这样的事情单一公司很难做到,但开源组织就可以。包括SDN在中国的发展,还有刚成立的开放数据中心委员会,未来整个领域都会推动云这一端的发展。

图三 QQ用户分布星云图

这张图展示的是QQ同时在线的人数,是在中秋节假期间截取的一个数据。大家可以看到星云图里华中、华南、华东、华北和西南最亮,那一片分布着我们最大的互联网用户群。那个时刻在晚上九点二十六,有两亿七百万的用户在同时使用QQ的服务,这里面大部分的用户是来自于移动智能终端。目前为止QQ历史同时最高在线人数是2.16亿人,创造了吉尼斯世界纪录。

图四 微信用户分布星云图

第二张图是微信最新的使用情况,今天为止我们看到微信的月活跃账户数已经超过四亿,我们也看到全球闪亮着这样一个星云图。

第三个我给大家展示一下刚才讲的集群做大数据处理的数据量。今天为止我们存储量已经超过100P,每天运行的数据处理作业超过百万,每天支撑业务的数据请求数近三百亿。

这一张是腾讯云的情况。开放腾讯基础架构能力的一个很重要的途径是通过腾讯云,就是说今天大家感觉到腾讯的主要业务,如QQ、微信、游戏、媒体、门户等等这些服务之外,腾讯通过腾讯云这样一个服务把基础能力开放给第三方公司去使用。今天已经有很多中小型公司可以不再为拉专线、建数据中心、上服务器等繁琐的事情而忧愁,可以集中精力注重在业务发展上面。尤其是初创性公司、创新性公司,一开始就能够长在云上,这是很好的事情。

谈云数据中心仅谈数据中心本身是不够的,一定还要包括这些数据中心之间怎么连接起来,怎么接入Internet,怎样运营已保证运行于我们数据中心的业务能够以非常好的体验触到每个用户,无论是固网用户还是移动用户,不管用户在国内还是在国外旅行,都要获得非常好的体验,这个就是我们基础架构要做的一个非常重要的工作。去年随着微信服务的海外拓展,我们花了大量的精力在海外扩展网络架构,保证腾讯用户在海外能够一样有良好的体验。

在大规模数据中心方面的分享主要是基于我们对过去的总结,分享一下我们在第一代、第二代、第三代数据中心建设中都是怎么思考和设计的。当时美国的大型数据中心都是仓储式大开间设计,单体一层大开间容量就可达到十万台服务器量级。我们为这个事情考虑了很久,考虑到中国国情、考虑到国内网络情况与电力情况。直到多次讨论后,我们判断在中国最适合我们的是模块化数据中心。我们从建楼开始就采用模块化方法,每一幢楼里面我们仍然采用模块化方法,这就是我们微模块的建设思路。

图五 微模块机房内景1

这个就是刚才讲的微模块组成的情况,图里我们所用的服务器是整机架服务器,它就是天蝎项目形成的最终标准在我们数据中心的第一次使用。整机柜服务器最关键的要点是把供电、散热这些基础部分共享起来,让服务器网络可以很好地融合进去,这样的微模块数据中心已经在腾讯数据中心中开始大面积部署。

在腾讯数据中心里面我们用到一个很创新的技术,实际上是高压直流技术,这项技术待会儿也会有更详细的介绍。回想若干年前,facebook最开始推的Open ComputerProject,是第一个数据中心开源项目,OCP项目里服务器供电采用的是负48伏直流,其实咱们运营商老大哥的数据中心通讯产品早就大量使用负48伏直流。但我们一直在思考下一代大规模数据中心如何解决供电问题。240V高压直流技术,我们从试验到应用试点,到今天我们已经可以跟大家来讲这项技术,因为我们已经验证过了,中间的经验教训也体会完了,优化完了。这个技术大面积应用,是能够为整个中国互联网云这一端的解决方案提供更好的解决方案。这个是微模块里面的一些图片,待会儿会有更详细的一些介绍。

图六 微模块机房内景2

但到今天为止,我们也不能说微模块就是一个最优的方案,它是一项新技术,还有很多可以优化的点,关于我们在哪些方面做出努力待会儿也会有介绍。

过去我们管理数据中心时更关注的是怎么建好一个数据中心,当我们有这么大规模的数据中心后,我们更关注要如何运营起来这个数据中心。今天我们看到在服务器层面大量的集群技术、分布式技术都很成熟,网络层面SDN、NFV都已经是非常流行的概念,大家都在朝着智能与自动化管理的方向努力。但数据中心这一层我们还没有这样的东西,我们非常希望用智能和自动化的方法来运营数据中心。

我们现在做的一件事情是把微模块北向和南向接口进行标准化。南向接口是面向微模块内部的控制单元接口,北向接口是到运营管理平面的接口,我们希望把这两个软件接口标准化下来,这样我们就可以拿我们的运营管理系统把海量的数据中心智能、有效地运营管理起来,这在运营方面是我们后续一个非常重要的挑战。

我们觉得微模块再怎么走,以腾讯一家的努力,投入的资源是十分有限的,我们希望能够和大家一起建立开放的标准,通过开放,可以做得更好。

接下来我们探索的目标主要在下面几个方向:

第一,是关于如何降低数据中心的能耗成本。我们目前的数据中心基本都建在沿海发达城市,电的成本很贵,象西北如宁夏这样的地方电比较便宜的,清洁能源占比大,看看怎么样能解决这个问题。

第二,我们用现在制冷的方法做到极致,冬天在天津也只能做到1.2左右的PUE,但在美国PUE都是做到1.1之下,我们一直在关注此方面的问题。他们能够很好地利用空气自然冷却方法,实现节能降耗,但我们的尝试遇到了问题。比如我们在天津尝试的自然冷却项目,天津的空气含硫量比较高,就腐蚀了我们许多的硬盘主板,导致硬盘故障率上升。

下一步我们也希望讨论一下在数据中心中采用更多清洁能源的可能,包括水电、风能和太阳能等都要去考虑。储能技术方面我们团队也在花时间研究,我们也有和深圳一些专门研究储能技术和电池技术的公司有一些跨界协作,我们也在想储能技术是否可以帮我们解决一下风能和太阳能不稳定的问题。团队也去考察了抽水蓄能电站的情况,就是说利用波峰波谷的电价差去做一些工作。还有更前端的一些想法在分布式能源方面。今天发电都是集中大发电集中输电,未来能不能利用离散的小型发电装置并网发电供应数据中心等等这些探索。我们非常希望可以和大家一起以开放的心态来探索研究未来的方案,这些对未来,对云端发展都非常有意义。

图七 腾讯SDN网络拓扑图

这个是我们数据中心SDN网络的一些情况,今天为止我们在数据中心里一直在往这个方向上努力。我们新建的数据中心已实现2.5万台服务器的大规模网络集群,拓扑的自动发现,自动部署,软件的升级等等,今天为止我们都是可以实现智能化的管理方法。

我们在广域网里看到谷歌最开始利用SDN达到一个比较高的链路利用率,今天在我们的广域网里面,也在积极的开展基于SDN的管理控制方法,将我们广域网的链路使用率提高到一个比较好的水平。今天我们的运营团队已经达到80%利用率的水平,同时保证咱们网络的运营质量指标。

在海量的服务器里面,我们也有自己的一套海量服务器管理系统去自动化管理服务器,这是自动化运营的一个核心系统,包括我们的工具平台、运营平台、数据分析、配置管理、自动化诊断等。今天我们服务器的运营状况全是在自动化系统的监控下进行的,出了故障的时候这个系统会精准定位有什么问题,然后由维护人员来进行维护操作。

最后,我们希望腾讯数据中心可以实现“软件定义的基础设施”,即software defined infrastructure架构。如果我们把计算能力,网络能力和刚才讲的数据中心模块能力都能实现集中化控制和调度的话,我们整个数据中心将实际上拥有一个高度智能化的,高度可编程可定制的数据中心架构。这样的一个SDI架构我们认为可以比较好的支持未来云端发展。

图八 腾讯SDI网络拓扑图

今天我给大家的汇报主要是这些,大家如果感兴趣的话,还可以关注下面两个公众号,我们通过这两个公众号持续分享。左边是数据中心领域的分享,右边是网络领域的分享,我们后续会持续通过这两个公众号跟大家分享我们的一些心得。谢谢大家!

版权声明:本文为腾讯数据中心原创,版权均属“深圳市腾讯计算机系统有限公司”所有,未经官方授权,不得使用。

补充说明:文中部分图片来自互联网,如果涉及到版权问题请联系wizardgao@tencent.com。

0 人点赞