容灾系列(十)——数据热备容灾能力建设【基础篇】

2022-09-26 11:52:59 浏览数 (2)

企业业务敏感程度差异,对容灾指标RPO&RTO要求也不同。之前两篇文章主要介绍数据冷备,主要特点是数据备份存储非实时,备份系统存储数据通常昨天的数据,当灾难真正来临的时候,今天新产生的数据会丢失情况。对于企业核心业务来讲,业务恢复(RTO)可以接受小时级别,但是对于数据无法接受丢失,即RPO接近为“零”。结合腾讯云数据备份能力,本文重点介绍数据热备解决方案,旨在让客户上好云,用好云,管好云。

1. 数据热备介绍

数据热备,对业务数据做异地的实时备份。热备对数据是实时复制备份,加强对数据的完整性保障,相对于冷备方案,RPO指标提升到秒级别。由于该方案只做异地数据实时备份,RTO指标依赖于业务部署能力,通常为分钟级。

数据热备有两个关键词分别为“异地”和“实时”,需要在再次强调一下。异地明确数据热备容灾能力,实时明确RPO指标接近于“零”。尤其是实时,对于RPO指标提升,为此需要企业投入更多的成本。相对于冷备份带宽和存储成本,热备还需要相应组件成本,例如在异地需要新建同等规格的数据库,将源端数据库数据实时同步到目标端。

2. 数据热备方案

数据热备最核心就是将源数据实时同步到灾备实例,业内云平台均能提供稳定数据同步服务,同时为了更匹配云上客户场景,平台也会将能力封装,更方便云上客户使用。

2.1 DTS同步服务方案

目前大多数企业核心数据均存储在数据库里面,同时业内头部云厂家都会提供DTS数据同步企业级服务,为数据热备方案解决了最棘手问题,以腾讯云DTS为例,覆盖业内大多数常用数据库如下:

数据传输服务数据传输服务

DTS数据同步服务方案,有两个前提:

1)网络互通,通过云联网将源实例和灾备实例所在vpc网络打通。

2)灾备实例,建议采用云平台的PAAS服务,更好的兼容DTS同步服务。

2.2 平台热备方案

2.2.1 数据库灾备方案

目前数据库对于异地容灾备份能力进行封装,来简化云上客户操作成本,提升RTO。

1)数据库mysql为例,控制台提供了灾备实例,一站式构建数据热备份。

一站式构建灾备实例一站式构建灾备实例

2)以redis为例,通过开启全球复制功能,将主实例的数据实时同步到其它地域的redis实例。从页面上可以看出操作非常便捷。

redis全球复制redis全球复制

2.2.2 对象存储实时备份方案

对象存储异地数据备份,注意通过云平台的存储桶复制来实现。这里需要注意,对象存储复制只针对增量数据,对于存量数据复制通过msp数据迁移方式来复制。

2.2.3 中间见实时备份方案

ckafka云平台在数据同步已支持跨地域容灾,但是对于ckafka版本有要求,为专业版本。

ckafka跨地域容灾ckafka跨地域容灾

3.云上客户案例

3.1 数据热备方案

以云上某电商客户为例,业务数据热备份主要依赖于云平台备份能力,在提升RPO基础上,进一步提升RTO恢复效率,当前整体数据热备技术架构如下:

数据热备架构图数据热备架构图

该方案要点:

  • 数据备份:借助云平台现有能力完成数据实时同步。MySQL新建灾备实例进行数据热备,数据一致性要求选择同步方式,通常采用异步;Redis通过全球复制功能实现数据同步,备份地区角色为只读进行数据复制;cos设置存储桶复制功能进行数据备份,同时北京存储桶开启日志。
  • 数据一致性:不同地域通常数据同步为异步模式,当云端出现故障,可能导致数据不一致的情况,依据业务要求,需要人工介入校验。
  • 实施周期:数据备份均为平台能力,仅需要云上客户在控制台操作完成即可。
  • 业务改造:对业务没有入侵,不需要改造。
  • 资源成本:主要涉及成本包含跨地域带宽成本,COS存储成本,以及在备份实例。

3.2 业务恢复以及回切

当某个地域出现极端情况下,需要对业务进行恢复:

1)数据恢复:通过控制台已经提供切换主实例功能,即将备份节点提升为主实例对外提供服务。

2)业务恢复:在备份地域,进行业务1:1部署,同时后端数据存储地址均有变化,需要业务侧进行适配。

热备业务回切成本较高,除非业务有强诉求,通常来讲企业不会选择业务回切。如果业务需要回切,

1)数据回切:mymql通过dts同步增量数据,redis通过切换主实例,cos通过日志人工录入恢复。

2)业务回切:待两端数据一致,业务功能流程都测试完毕后,在业务低峰期进行业务回切。

4. 本文小结

数据热备主要是提升RPO指标,几乎接近为“零”;同时借助平台能力有效提升RTO指标。

方案关键因素

详细说明

容灾范围

地域级别容灾

RPO/RTO

RPO几乎接近为零;RTO为小时级别,进行1:1业务部署,依赖于业务部署和数据恢复自动化能力。

资源费用

跨地域流量,COS存储成本、数据库以及其它组件实例成本

业务改造

业务改造成本为0。

数据备份

依赖于云平台的数据备份能力,数据备份和恢复成本几乎为0。

业务恢复

业务恢复成本较高, 1. 业务部署能力,业务恢复依赖于业务测试部署自动化能力。 2.业务验证能力,业务恢复相当于业务重新部署,对于业务全面测试验证上线能力要求较高。 3.容灾演练能力建设,增加平时运维成本以及自动化工具开发功能。

0 人点赞