容灾系列(三)——云网络容灾建设

2021-08-09 11:30:40 浏览数 (2)

网络属于基础设施部分,网络容灾建设作为一个数据中心验收重要指标。试想一个数据中心的网络链路存在单点,就如一个城市道路都是单行道,一旦出现交通事故,小则导致道路拥堵,大则导致整个城市交通瘫痪。IDC时代,业务对网络容灾参与较少,主要依赖数据中心网络容灾建设程度;当到了云的时代,云服务商将底层网络能力产品化后,云上客户更多参与网络容灾建设,提升业务稳定性。本文从云网络概述,云网络容灾复杂度以及典型案例来介绍云网络容灾建设。

1.云网络概述

云网络概述主要分为云服务商基础设施网络架构和云产品两部分,让云上客户更加深入了解云网络,用好云网络。

1.1 云服务商网络架构

本节从业务容灾建设角度来着重说明以下几个问题:

1)云服务商不同可用区云底层网络是完全独立吗?

以腾讯云为例,在一个可用区建设数据中心时,底层网络和机房电力统一建设;因此不同的可用区,底层网络都是完全独立的,无论是数据层面和控制层面,均完全隔离没有交集。

2)同地域不同可用区网络延时多大?

以腾讯云为例,在同地域选择机房地址的时候,距离大于60公里,要求不同可用区延时小于3ms,来满足云上客户同城容灾建设基本需求。在云上业务考虑容灾建设时候,通过不同可用区虚机之间互PING来评估具体延时。以广州地域为例,作为参考:

广州不同可用区的网络延时广州不同可用区的网络延时

3)不同可用区之间网络的稳定性

以腾讯云为例,广域网通过BR核心路由器互通,城域网DR核心路由器互通架构,如下图所示:

  • 广域网稳定性,不同地域之间链路为多条光纤实现冗余,同时不同的地域组成一个环,如果直连链路部分光纤中断,优先通过负载恢复,极端情况下,不同地域直连链路全部中断,通过环路来恢复业务,保障业务稳定性。
  • 城域网稳定性,不同可用区优先通过直通车来降低不同可用区网络延时;同时通过“四纤三路由”来提升光纤中断自动自愈能力(小于50ms)。如果DR之间直通车部分光纤中断,通过“四纤三路由”来快速恢复业务;如果DR之间光纤全部中断,通过BR链路来恢复业务。
广&城域网架构图广&城域网架构图

4)如何应对整个公网异常极端情况

以腾讯云为例,不同的地域都会对接当前的ISP;例如广州公网异常,云上通过内网调度能力,结合网络负载能力,从不同地域ISP访问公网。例如2019年3月,上海电信公网异常,云侧从故障发现到恢复用了2分钟。详见http://www.etudu.com/?id=67。

1.2 云网络产品

对于云上网络产品,从业务流量维度主要分为:

流量走向

对应产品

容灾建设

南北向流量

负载均衡(CLB)、NAT网关、弹性公网IP(EIP)、anycast IP

1.同城多活,避免跨可用区的流量 2.负载均衡公网CLB具备已跨AZ容灾能力 3.NAT网关绑定多个EIP,提升连接数

东西向流量

专线接入、对等链接、云联网、VPN、private link

1.敏感业务建议不要使vpn打通 2.混合云专线接入容灾方案,相见3.1 3.VPC之间网络互通建议采用云联网,保证网络维护简单,网络架构清晰。

2.网络容灾复杂度

同城或者异地容灾建设,网络层面因素主要有三个:

1)跨区或者跨地域网络延时,对上层业务影响。

网络延时,通过优化基础设施手段是非常有限的,毕竟受限于实际物理距离和光速。如果业务对网络延时较为敏感,通常是添加中间件或者缓冲层来降低延时。

2)跨区或者跨地域云基础设施容灾能力。

通常云服务厂家数据中心建设均有容灾能力,这里建议还是选择大厂。

3)IDC到云上网络高可用建设。

混合云容灾模式,这里考虑到IDC和云上线路容灾情况,一般建议两条专线接入不同的POP点来进行容灾建设;同时建立VPN或者GRE公网逃生通道来紧急恢复业务。

3.网络容灾案例

3.1 公网CLB容灾

公网CLB多可用区能力已经上线,但是需要账户开白支持。如果存量公网CLB为单可用区,建议升级为多可用区。目前暂不支持平滑升级。具体流程:

1.需要新购多可用区CLB,绑定后端RS,

2.切部流量灰度到多可用区CLB,业务正常后,切全部流量

3.观察单可用区流量,待没有流量和链接数时候,正式下线。

注意:对于入口VIP写死情况,客户端升级的成本较高。

CLB多可用区购买页面CLB多可用区购买页面

3.2 混合云网络容灾

混合云网络容灾分为两个部分:

1)idc和云机房之间线路容灾,主要线路分为专线和VPN。专线为主,不同POP点接入;VPN为辅,最为紧急逃生通道,同时这里注意云上vpn网关最大带宽承载为1G,如果不满足业务要求,建议使用GRE方案作为应急通道。

2)云侧网关容灾,主要针对专线接入,通过云联网专线网络和vpc专线网关来实现高可用;通常情况下,以云联网专线网关为主,VPC专线网关为辅。

混合云网络容灾解决方案混合云网络容灾解决方案

故障推演:

1)部分专线通道异常,业务流量会自动调度到其他专线通道,对业务感知影响有限。

2)全部专线通道异常,业务流量要调度到公网恢复业务,需要通过调用API接口禁用VPC型专线网关路由,同时新增VPN/GRE路由来手动恢复业务。主要由于当前VPC型专线网关当前仅支持静态路由,导致路由不能自动收敛。

3)云联网专线网关异常,业务流量会自动调度到VPC型专线网关来恢复业务,对业务感知影响有限。

0 人点赞