网络属于基础设施部分,网络容灾建设作为一个数据中心验收重要指标。试想一个数据中心的网络链路存在单点,就如一个城市道路都是单行道,一旦出现交通事故,小则导致道路拥堵,大则导致整个城市交通瘫痪。IDC时代,业务对网络容灾参与较少,主要依赖数据中心网络容灾建设程度;当到了云的时代,云服务商将底层网络能力产品化后,云上客户更多参与网络容灾建设,提升业务稳定性。本文从云网络概述,云网络容灾复杂度以及典型案例来介绍云网络容灾建设。
1.云网络概述
云网络概述主要分为云服务商基础设施网络架构和云产品两部分,让云上客户更加深入了解云网络,用好云网络。
1.1 云服务商网络架构
本节从业务容灾建设角度来着重说明以下几个问题:
1)云服务商不同可用区云底层网络是完全独立吗?
以腾讯云为例,在一个可用区建设数据中心时,底层网络和机房电力统一建设;因此不同的可用区,底层网络都是完全独立的,无论是数据层面和控制层面,均完全隔离没有交集。
2)同地域不同可用区网络延时多大?
以腾讯云为例,在同地域选择机房地址的时候,距离大于60公里,要求不同可用区延时小于3ms,来满足云上客户同城容灾建设基本需求。在云上业务考虑容灾建设时候,通过不同可用区虚机之间互PING来评估具体延时。以广州地域为例,作为参考:
3)不同可用区之间网络的稳定性
以腾讯云为例,广域网通过BR核心路由器互通,城域网DR核心路由器互通架构,如下图所示:
- 广域网稳定性,不同地域之间链路为多条光纤实现冗余,同时不同的地域组成一个环,如果直连链路部分光纤中断,优先通过负载恢复,极端情况下,不同地域直连链路全部中断,通过环路来恢复业务,保障业务稳定性。
- 城域网稳定性,不同可用区优先通过直通车来降低不同可用区网络延时;同时通过“四纤三路由”来提升光纤中断自动自愈能力(小于50ms)。如果DR之间直通车部分光纤中断,通过“四纤三路由”来快速恢复业务;如果DR之间光纤全部中断,通过BR链路来恢复业务。
4)如何应对整个公网异常极端情况
以腾讯云为例,不同的地域都会对接当前的ISP;例如广州公网异常,云上通过内网调度能力,结合网络负载能力,从不同地域ISP访问公网。例如2019年3月,上海电信公网异常,云侧从故障发现到恢复用了2分钟。详见http://www.etudu.com/?id=67。
1.2 云网络产品
对于云上网络产品,从业务流量维度主要分为:
流量走向 | 对应产品 | 容灾建设 |
---|---|---|
南北向流量 | 负载均衡(CLB)、NAT网关、弹性公网IP(EIP)、anycast IP | 1.同城多活,避免跨可用区的流量 2.负载均衡公网CLB具备已跨AZ容灾能力 3.NAT网关绑定多个EIP,提升连接数 |
东西向流量 | 专线接入、对等链接、云联网、VPN、private link | 1.敏感业务建议不要使vpn打通 2.混合云专线接入容灾方案,相见3.1 3.VPC之间网络互通建议采用云联网,保证网络维护简单,网络架构清晰。 |
2.网络容灾复杂度
同城或者异地容灾建设,网络层面因素主要有三个:
1)跨区或者跨地域网络延时,对上层业务影响。
网络延时,通过优化基础设施手段是非常有限的,毕竟受限于实际物理距离和光速。如果业务对网络延时较为敏感,通常是添加中间件或者缓冲层来降低延时。
2)跨区或者跨地域云基础设施容灾能力。
通常云服务厂家数据中心建设均有容灾能力,这里建议还是选择大厂。
3)IDC到云上网络高可用建设。
混合云容灾模式,这里考虑到IDC和云上线路容灾情况,一般建议两条专线接入不同的POP点来进行容灾建设;同时建立VPN或者GRE公网逃生通道来紧急恢复业务。
3.网络容灾案例
3.1 公网CLB容灾
公网CLB多可用区能力已经上线,但是需要账户开白支持。如果存量公网CLB为单可用区,建议升级为多可用区。目前暂不支持平滑升级。具体流程:
1.需要新购多可用区CLB,绑定后端RS,
2.切部流量灰度到多可用区CLB,业务正常后,切全部流量
3.观察单可用区流量,待没有流量和链接数时候,正式下线。
注意:对于入口VIP写死情况,客户端升级的成本较高。
3.2 混合云网络容灾
混合云网络容灾分为两个部分:
1)idc和云机房之间线路容灾,主要线路分为专线和VPN。专线为主,不同POP点接入;VPN为辅,最为紧急逃生通道,同时这里注意云上vpn网关最大带宽承载为1G,如果不满足业务要求,建议使用GRE方案作为应急通道。
2)云侧网关容灾,主要针对专线接入,通过云联网专线网络和vpc专线网关来实现高可用;通常情况下,以云联网专线网关为主,VPC专线网关为辅。
故障推演:
1)部分专线通道异常,业务流量会自动调度到其他专线通道,对业务感知影响有限。
2)全部专线通道异常,业务流量要调度到公网恢复业务,需要通过调用API接口禁用VPC型专线网关路由,同时新增VPN/GRE路由来手动恢复业务。主要由于当前VPC型专线网关当前仅支持静态路由,导致路由不能自动收敛。
3)云联网专线网关异常,业务流量会自动调度到VPC型专线网关来恢复业务,对业务感知影响有限。