企业业务敏感程度差异,对容灾指标RPO&RTO要求也不同。之前两篇文章主要介绍数据冷备,主要特点是数据备份存储非实时,备份系统存储数据通常昨天的数据,当灾难真正来临的时候,今天新产生的数据会丢失情况。对于企业核心业务来讲,业务恢复(RTO)可以接受小时级别,但是对于数据无法接受丢失,即RPO接近为“零”。结合腾讯云数据备份能力,本文重点介绍数据热备解决方案,旨在让客户上好云,用好云,管好云。
1. 数据热备介绍
数据热备,对业务数据做异地的实时备份。热备对数据是实时复制备份,加强对数据的完整性保障,相对于冷备方案,RPO指标提升到秒级别。由于该方案只做异地数据实时备份,RTO指标依赖于业务部署能力,通常为分钟级。
数据热备有两个关键词分别为“异地”和“实时”,需要在再次强调一下。异地明确数据热备容灾能力,实时明确RPO指标接近于“零”。尤其是实时,对于RPO指标提升,为此需要企业投入更多的成本。相对于冷备份带宽和存储成本,热备还需要相应组件成本,例如在异地需要新建同等规格的数据库,将源端数据库数据实时同步到目标端。
2. 数据热备方案
数据热备最核心就是将源数据实时同步到灾备实例,业内云平台均能提供稳定数据同步服务,同时为了更匹配云上客户场景,平台也会将能力封装,更方便云上客户使用。
2.1 DTS同步服务方案
目前大多数企业核心数据均存储在数据库里面,同时业内头部云厂家都会提供DTS数据同步企业级服务,为数据热备方案解决了最棘手问题,以腾讯云DTS为例,覆盖业内大多数常用数据库如下:
DTS数据同步服务方案,有两个前提:
1)网络互通,通过云联网将源实例和灾备实例所在vpc网络打通。
2)灾备实例,建议采用云平台的PAAS服务,更好的兼容DTS同步服务。
2.2 平台热备方案
2.2.1 数据库灾备方案
目前数据库对于异地容灾备份能力进行封装,来简化云上客户操作成本,提升RTO。
1)数据库mysql为例,控制台提供了灾备实例,一站式构建数据热备份。
2)以redis为例,通过开启全球复制功能,将主实例的数据实时同步到其它地域的redis实例。从页面上可以看出操作非常便捷。
2.2.2 对象存储实时备份方案
对象存储异地数据备份,注意通过云平台的存储桶复制来实现。这里需要注意,对象存储复制只针对增量数据,对于存量数据复制通过msp数据迁移方式来复制。
2.2.3 中间见实时备份方案
ckafka云平台在数据同步已支持跨地域容灾,但是对于ckafka版本有要求,为专业版本。
3.云上客户案例
3.1 数据热备方案
以云上某电商客户为例,业务数据热备份主要依赖于云平台备份能力,在提升RPO基础上,进一步提升RTO恢复效率,当前整体数据热备技术架构如下:
该方案要点:
- 数据备份:借助云平台现有能力完成数据实时同步。MySQL新建灾备实例进行数据热备,数据一致性要求选择同步方式,通常采用异步;Redis通过全球复制功能实现数据同步,备份地区角色为只读进行数据复制;cos设置存储桶复制功能进行数据备份,同时北京存储桶开启日志。
- 数据一致性:不同地域通常数据同步为异步模式,当云端出现故障,可能导致数据不一致的情况,依据业务要求,需要人工介入校验。
- 实施周期:数据备份均为平台能力,仅需要云上客户在控制台操作完成即可。
- 业务改造:对业务没有入侵,不需要改造。
- 资源成本:主要涉及成本包含跨地域带宽成本,COS存储成本,以及在备份实例。
3.2 业务恢复以及回切
当某个地域出现极端情况下,需要对业务进行恢复:
1)数据恢复:通过控制台已经提供切换主实例功能,即将备份节点提升为主实例对外提供服务。
2)业务恢复:在备份地域,进行业务1:1部署,同时后端数据存储地址均有变化,需要业务侧进行适配。
热备业务回切成本较高,除非业务有强诉求,通常来讲企业不会选择业务回切。如果业务需要回切,
1)数据回切:mymql通过dts同步增量数据,redis通过切换主实例,cos通过日志人工录入恢复。
2)业务回切:待两端数据一致,业务功能流程都测试完毕后,在业务低峰期进行业务回切。
4. 本文小结
数据热备主要是提升RPO指标,几乎接近为“零”;同时借助平台能力有效提升RTO指标。
方案关键因素 | 详细说明 |
---|---|
容灾范围 | 地域级别容灾 |
RPO/RTO | RPO几乎接近为零;RTO为小时级别,进行1:1业务部署,依赖于业务部署和数据恢复自动化能力。 |
资源费用 | 跨地域流量,COS存储成本、数据库以及其它组件实例成本 |
业务改造 | 业务改造成本为0。 |
数据备份 | 依赖于云平台的数据备份能力,数据备份和恢复成本几乎为0。 |
业务恢复 | 业务恢复成本较高, 1. 业务部署能力,业务恢复依赖于业务测试部署自动化能力。 2.业务验证能力,业务恢复相当于业务重新部署,对于业务全面测试验证上线能力要求较高。 3.容灾演练能力建设,增加平时运维成本以及自动化工具开发功能。 |