图文简述在多故障场景下双活数据中心的应对

2019-09-24 16:05:19 浏览数 (1)

最近有个集团级的云项目处于实施过程中,客户对数据备份、应用双活视为同一个事物,要求我方将原秒级数据备份升级为秒级应用双活。实际问题,备份与双活是不同的两个概念。以下我们用图文方式简述双活与数据备份的区别。

一、数据备份:一般数据备份采用定期全量备份(如七天),更短周期数据增量备份(如一天或秒级)的方式。具体的实现原理有多种:硬盘分区级的物理备份(硬盘虚机快照等)、文件级的物理备份(Veritas等)、数据库级的逻辑备份(MysqlDump、Oracle DataGuard等)。

数据备份达不到应用双活的要求,因为仅实现了数据的备份,应用实际是单部署。一旦主应用服务器中断,实际是无备应用服务器接替服务器的。因此通过数据备份来启动备用的数据中心服务,一般切换周期至少在几小时以上。

二、应用双活:

1、在两个数据中心边界部署GSLB,在单数据中心全部中断服务情况下,秒级切换。GSLB代替用户原来的Local DNS,将用户所有域名迁移到GSLB设备,由GSLB设备完成普通或者智能DNS解析。当生产中心GSLB不响应DNS时,会自动递归查询至灾备中心的GSLB,从而由灾备中心GSLB应答DNS请求,整体切换时间可达秒级。要求应用基于DNS。

2、在单数据中心内部署两台SLB,当单SLB中断或某单服务器中断时,仍能正常工作。由于SLB双机部署,备机实时备份会话,当SLB-1机时,流量瞬间切换SLB-2接管,业务无影响,切换时间为秒级。

3、在单数据中心服务器全部中断时,通过GSLB、数据中心间二层波层链路,仍能正常工作

新用户:GSLB实时模拟用户对SLB VIP做健康监测,当获知服务器全部宕机的情况时,会立即更新DNS响应策略;此时,新用户发起的DNS请求都会得到灾备中心的VIP-B,从而实现双中心秒级业务切换。

老用户:由于用户访问的流程是先向GSLB请求VIP,当获取一个VIP后,就会直接通过VIP访问,在DNS失效前不再请求新的DNS。由此,在生产中心服务器宕机的短时间内,会存在一个情况,即:GSLB此时通过健康检测,能够立即获知生产中心服务器集群不可用,且会立即更新DNS相应策略(相应灾备中心VIP-B);但仍然有用户暂未更新VIP,此时仍然会访问生产中心VIP-A;解决方法是:配置VIP-B作为主中心VIP-A下挂服务器组的备份组,当所有服务器集群不可用时,前来访问的用户流量会被生产中心SLB-1引流至灾备中心SLB-1,以此来保证业务流量不中断,整体切换时间可达秒级。

4、当存储服务器中断时,通过存储仲裁、波分链路,实现存储永不中断。可采用OceanStor V3系列产品,实现存储双活架构,为两个数据中心存储同时提供读写服务,且整个存储系统架构全冗余,任意数据中心故障时,另外一个数据中心有一份存储设备和相同数据可用,最大化提高了业务连续性。

5、通过SLB支持RHI特性,保证基于IP访问的应用也能享受双活。RHI(Route Health Injection,路由健康注入)技术。该特性通常由SLB设备实现,SLB周期性的检测服务器/虚拟机的存活状态,当检查结果正常时,SLB向骨干网中发布一条该虚机地址的主机路由;当检查结果异常时,撤销该主机路由。另一个数据中心的SLB也发布一条更高Metric的主机路由,从而平常的IP路由只能到主用数据中心。

该特性要求数据中心至运营商大网必须通过BGP、OSPF等动态路由进行路由交换,不能为静态路由。

6、最后,应用双活是很复杂的体系,需要网络、数据中心等多台设备的联动,成本、实施难度很高。

0 人点赞