在腾讯有这么一群人,百万台服务器在他们眼中运转,千亿兆数据传输由他们护航——他们是坚守在互联网数据中心(IDC)的运维人。日复一日的例行巡检,天天与硬件设备打交道的他们如何耐住寂寞,并且在其中突破成长?业务规模的飞速发展、服务器数量的几何级增长又对他们的技术能力提出了哪些要求? 《递归3》第三集,让我们跟随一位15年数据中心运维人的视角,探秘这个“在一切之后,更在一切之前”的硬核团队。
肖善领,TEG IDC平台部华南数据中心员工,07年加入公司,在腾讯工作15年。当前主要负责华南深圳片区机房的运营管理工作,为公司内外客户IT设备提供稳定高效安全的支撑保障服务,坚信通过技术和服务发挥运维价值,见证并参与了公司机房从学习建设到自研创新,规模和技术快速发展历程。
机房运维多面手
作为一个15年的IDC运维人,肖善领见证了腾讯数据中心的许多重要时刻。其中最具标志性的,便是腾讯首个自建机房——深圳宝安数据中心的落成。自此,腾讯数据中心团队白手起家,在学习与探索中踏出了自建数据中心发展的第一步。
肖善领是第一批入驻宝安机房的运维人,当时分工没有那么细,从基础设施建设到IT设备运维,他都要参与负责。十几年前机房的监控告警不够全面和及时,故障点不容易找到。“你收到一个漏水告警,你可能要掀一个屋子的地板,然后一条条的去找。”
对那时刚刚入行的肖善领来说,每一天都面临新的挑战:面对数据中心的不同的工作,他需要快速熟悉掌握;面对告警和故障,又要求他要耐心细致地排查和处理。而这些不及时、不全面的告警系统,以及不便于快速排障的机器部署规划,也成为肖善领和他团队的同事进行机房性能优化的原点。
一个机房就是一座知识宝库
“第一次按配电柜开关的时候,我手都是抖的。”
想到自己一个轻微的动作,关系着无数业务的稳定运行,肖善领不由觉得自己作为运维肩负的责任重大。为了能更好地支持业务,自己要学的东西有很多,而机房本身就是一座巨大的知识宝库。
随着业务体量的增加,服务器数量在不断扩大,数据中心的技术也在不断演进。肖善领开始要接触到机房建设的工作。从选址、规划、建设,最终交付运营,每一步都有多门学科知识蕴藏其中,不仅包含风火水电、消防等专业,还要熟悉事件规划及管理能力。
管理一个机房,也不单单是“抗下设备、刷个配置、管好人、不出事”这么简单,而是要当成一个小公司去运营,安全、成本、效率都缺一不可。
这些不断涌现的新问题、不断演进的新技术,更加激发了肖善领由钻研探索到挑战征服的正向循环回路。正如肖善领所说:“最开心的事当然是又拿到新的机房,我们运维人又有了新的用武之地”。
学无止境 越琢磨越有趣
这个机房规划多少个机架? 如何搭配变压器、UPS、柴发、冷机等设备? 如何设计柴发、冷机设备的启动逻辑? 市电中断了,是先启动柴发,还是先切换另一路市电?
对于不同的机房,配置的逻辑不尽相同。“把这些逻辑了解清楚了,你会觉得挺有趣的。在你研究的过程中,也能学到很多东西。”
在不同阶段,思考的东西不一样,机房的建设技术也在突飞猛进——比如第二代的冷通道技术方案,第三代的自研MDC机房,第四代的T-block机房。机房从之前仅能支撑1万台服务器提升到能够支撑180多万台,PUE从第一代的1.8降到1.25以下。
这些成绩不是一蹴而就的,这些技术也不是一朝一夕就能够完全掌握的,靠的是整个IDC所有同事经年累月的苦心钻研和探索。
谈到机房运维重复性的工作,肖善领认为,日常规律性的巡检只是工作的一部分,只要“沉下心来仔细体会机房的容量配置、逻辑,以及学习层出不穷的新技术,其实就不会觉得枯燥和无聊了。”
静水流深 道阻且长
有志者,事竟成,破釜沉舟,百二秦关终属楚;
苦心人,天不负,卧薪尝胆,三千越甲可吞吴。
“我看中的不是它的「苦」,而是它的「奋」——奋发图强。”
机房运维是一个非常考验耐心和寂寞的岗位,俗称是“业务背后的人”——不出事的时候你不会感知到他们的存在,一出事情可能才会想到,原来还有这一群人在背后支撑着。
同时,数据中心运维也是一个需要不断提升自己能力的岗位,作为一名运维人员要保持学习心态,不满足于运维的状态,多提问、琢磨和钻研,才能在这个领域有更深远的成长。
导演:金梓江
制片:孙健翔、蓝彦