——腾讯与运营商的合作纪实
"鹅厂网事"由深圳市腾讯计算机系统有限公司技术工程事业群网络平台部运营,我们希望与业界各位志同道合的伙伴交流切磋最新的网络、服务器行业动态信息,同时分享腾讯在网络与服务器领域,规划、运营、研发、服务等层面的实战干货,期待与您的共同成长。
网络平台部以构建敏捷、弹性、低成本的业界领先海量互联网云计算服务平台,为支撑腾讯公司业务持续发展,为业务建立竞争优势、构建行业健康生态而持续贡献价值!
前言
现代生活中,互联网已经渗透到了人们生活的方方面面,涵盖了社交、支付、娱乐和网络游戏等众多领域,就像生活中的水与电,已经不可或缺。而大家知道在我们便捷的使用互联网服务的背后,是由运营商(ISP)的网络和互联网公司(ICP)的内容两部分共同支撑实现(如图1示)。由于运营商和互联网公司大多数情况本身属于不同领域体制,所以通常运营商和互联网公司只是负责各自负责的部分,这种模式在互联网发展初期业务规模较小时是能满足用户体验和运营需求的,但随着互联网的爆发式发展,部分业务对网络精细化要求越来越高,同时互联网业务流量规模也日益庞大,甚至已经开始触及到运营商自有的架构承载上限,传统各自散打的做法已经难以满足需求。
共舞
腾讯作为国内龙头互联网企业,先试先尝,打破传统,已与运营商建立良好的合作体系(如图2示),并在网络的容量规划、运营和新技术等多个纬度展开创新合作,犹如大象与企鹅共舞,打造业界运营生态模式。
01 规划共舞 —运筹帷幄,提前布局。
规划布局
众所周知,国内网民主要集中在三大运营商,网民的体验与运营商架构密切相关,为保障用户访问最优,腾讯前期数据中心选址均与运营商骨干节点保持一致(如图3示),但随着运营商网络架构的调整,腾讯业务体量的飞速发展,双方出现交互影响并彼此制约情况,为此腾讯与运营商提前对齐规划,共同布局骨干节点,并对出口的上联进行优化提升层级,同时节奏上保持步伐一致,以支撑业务的快速发展,如西部新核心节点规划初期即开始和三大运营商同步相关规划。
资源储备
运营商负责的公网出口、互联网骨干和专线等带宽资源的建设由于涉及基建、设备采购等环节,建设周期长,从发起到交付,往往按照0.5-1年甚至2年来计算,而互联网业务发展则几乎按月来计,当业务明确需求才去发起建设扩容,往往无法满足业务需求,影响业务的正常开展,未雨绸缪才是根本解决方法,因此,将网络带宽规划尽量前置,就成为一个关键突破点,腾讯根据网络流量增长之前做出预测,前瞻性地进行网络容量规划,将信息同步给运营商,提前1年纳入运营商建设规划,这样当业务真正开始发展放量增长时,运营商容量带宽也按计划到位。
腾讯基于业务发展及行业趋势,制定三年网络容量规划,在运营商下半年制定运营商滚动规划时,与集团和省市运营商对齐并纳入,然后定期同步双方进度,运营商同步建设进度,腾讯同步业务需求进度(如图4示)。通过这样的模式运作,运营商可以提前获得腾讯需求,并启动准备相关网络带宽资源,另一方面,腾讯也可以根据运营商的资源可到位情况来对业务进行调度调整,有新的业务变化,也可以及时同步运营商。
以开放共赢的心态定期交流,腾讯和运营商双方都深入理解并高度认同彼此的网络状态和发展规划。
02 运营共舞 —流程联动、密切合作。
网络运营演习
再前瞻的网络规划也可能抵挡不住网络意外故障的突然侵袭,在数千条的腾讯租用运营商的出口和内网链路及运营商自身骨干链路中,难免会遭受到攻击、中断等意想不到的情况发生,为了进一步保障业务万无一失,腾讯网络运营团队又提出联合运营商进行“网络运营演习”。
网络运营演习的目的在于验证网络事件突发时的网络可靠性,提前制定应对预案。简单来说,就是提前写好故障剧本,拍戏,提前了解解决问题的措施,这样就可以在故障真正来临时按照提前定好的方案进行,不慌不乱。
演习主要从出口、专线、设备三个角度进行。出口演习(如图5示)通常每季度一次,验证当一个园区出口中断时,流量是否立即从另一个园区出口冗余调出,从而保证业务不间断,提升业务可用性;专线演习着重验证腾讯业务链路分布合理性和腾讯与运营商之间故障申报、受理及保障流程的合理性,为上海、深圳本地线路和长途光纤提供双层保障。设备演习(如图6示)用以发现设备架构容量隐患,推动运营商制定短期应急预案和长期扩容计划。
通过常态化的演习,腾讯和运营商建立起共同应对意外故障预案,使得在未来网络故障发生时,每个人可以做到心中有数,按既定流程去做事,将业务影响降到最低。
运营商割接流程机制
全年(除封网期间)因扩容、线路优化等情况不可避免需要对网络进行割接,腾讯每年收到运营商割接数千个,涉及运营商各个层次、产品(数通、传输),
在如此复杂情况下如何保障割接有顺完成对业务造成零影响,通过腾讯&运营商共同努力积累形成一套完善割接机制,割接机制:1、割接通知环节:实现统一模版,包括割接基础信息、割接实施及加退方案、2、割接评估环节:结合运营商方案和内部评估工具,系统自动输出结果 3、变更实施环节:协同操作,系统观察各项指标(如图7示)。通过机制的运作运营商99.9%的割接对腾讯无影响。
专属保障中心体系
传统营商模式运营商的网络故障需要派单到全国各省市,有些故障需要运营商各级协同进行处理,对于腾讯每年千级别故障量处理效率上不能够满足,腾讯提出一点覆盖全国的模式,经过运营商深入考虑,主动提出为大客户建设专属保障中心,形成省市集团一体的运营商专属服务团队,经过这几年共同运营打磨和建设(如图8示),从形式上实现故障一点响应,覆盖全国,机制上面各类故障场景进行细分形成成熟的流程,通过运营效果来看效率最少提升5倍。
网络运营重保
腾讯与运营商在一些重点活动上也保持着紧密的互动,如春节期间,为保障网民享受传统的收发红包,运营商同事和鹅厂小伙伴共同坚守在一线,保障亿万用户顺利收发红包,确保语音通话和视频清晰不中断,并建立双方确定的重保方案、绿色通道和一站式服务(如图9示),共同保障在网络故障发生时,以最快速度配合处理。
03 新技术共舞 —突破传统天花板
区分服务保障
我们通常称每晚八点到十点为“晚高峰”,在这段时间内,公网出口流量达到全天最高峰,在一些带宽紧张且又出现部分链路故障的出口常常因为利用率高会给网络带来拥塞,从而产生丢包、传输延时增大等一系列问题,就会造成用户常说的“网络卡顿”。
由于不同的业务对网络质量敏感度不同,如游戏、支付类会比较敏感,网页、视频类等业务则质量要求相对较低,游戏是要实时同步,即使晚1s也会明显影响用户体验,甚至无法正常参与游戏,而视频业务,则由于存在缓冲等机制,基本用户不会感知到网络的质量影响。
腾讯侧多年前已在内网进行实施区分服务,对关键业务进行拥塞情况下质量保障效果显著,积累技术方案较为成熟,此次联合运营商将该方案拓展至互联出口,当出口出现拥塞时也能够实现优先保障,方案实施整个过程通过在腾讯独享的IDC机房试点,完成方案验证,然后全网推进对腾讯所有独享的IDC机房出口进行重点保障。从实际运营效果中可以观察到,当出口出现拥塞故障时,受保障业务的确做到对故障无感知,而非保障业务则会明显收到影响(如图10示)。另外通过区分服务保障也可以减少运营商扩容层面的压力,在运营商未能及时扩容利用率较高的链路上有效实现关键业务的带宽保障。
用户体验提升
PC端的游戏王者—“英雄联盟”曾经创造了千万级同时在线的记录,随着各运营商用户规模增长,跨运营商之间用户竞技体验较差(游戏质量延时<80ms体验较好),按传统的分区分服接入单个运营商出口的部署方法无法满足新区对网络质量的要求,为了解决体验问题,腾讯网络、英雄联盟团队联合运营商部署一套通过腾讯CAP平台统一接入的大区,部署后效果使用国内各个运营商游戏玩家平均延时<60ms(如图11示)。
展望
随着腾讯业务繁荣发展,网络复杂性逐步攀升,Internet上带来的挑战也接踵而至,为业务提供强大网络支撑,这条路看似路途漫长,但相信有腾讯与运营商的共同合作并逐步打破常规,我们就有力量保持信心和坚定的步伐勇往直前。大象与企鹅将继续在各个领域深度起舞,为用户提供快速、稳定、安全的网络环境,体验一个个用心创造的腾讯服务。
欢迎关注公众帐号“鹅厂网事”,我们给你提供最新的行业动态信息、腾讯网络与服务器最接地气的干货分享,还有一大波互动交流板块和有奖活动正在筹备当中,需要您的热情参与哦,敬请期待!
注1:凡注明来自“鹅厂网事”的文字和图片等作品,版权均属于“深圳市腾讯计算机系统有限公司”所有,未经官方授权,不得使用,如有违反,一经查实,将保留追究权利;
注2:本文图片部分来至互联网,如涉及相关版权问题,请联系v_huanjian@tencent.com