容灾系列(八)——同城数据冷备容灾建设

2022-09-15 17:31:54 浏览数 (1)

在数字化转型的热潮中,业务数据无疑是企业的生命线。无论业务部署在IDC还是云平台,对数据备份都是有强烈诉求。随着共享经济的不断深化,越来越多企业将自身业务逐渐的搬迁到了云上。为了让企业能更好用好云平台的数据安全能力,本文重点云平台数据备份冷备能力,以腾讯云为例,主要从以下两个维度介绍:

  • 同城数据冷备能解决企业什么问题,达到怎么样业务容灾效果?
  • 云平台对数据冷备能给予企业哪些帮助?

1. 数据冷备介绍

1.1 数据冷备概念

数据冷备,业务数据文件在同地域或者跨地域定时做备份。数据不是实时备份,数据恢复存在不完整性,同时业务恢复无法自动切换,需要人工介入,数据冷备的RPO和RTO为小时级。

1.2 数据冷备挑战

通常企业做数据冷备份面临难点,主要分为两部分:

  • 备份系统稳定性:系统能定时进行数据备份,同时能进行及时恢复。如果备份系统出现问题,相关人员能有效的感知并恢复的能力。
  • 业务恢复能力:当出现极端情况,业务恢复能力更多依赖业务部署测试验证的自动化能力。

在云平台主要提供数据备份能力,主要数据备份和恢复,让企业更聚焦业务本身,底层备份技术选型交给云平台负责。

2. 同城数据冷备方案

2.1 同城冷备平台能力介绍

同城数据冷备,云平台主要提供以下几个能力:

  • 备份安全级别为地域粒度,例如广州一共有3个可用区,其中一个可用区不可用,不会对数据备份造成危险,只有这三个可用去完全不可用时,存在数据丢失情况。
  • 数据备份便捷性,云平台控制台均提供便捷页面,通过鼠标点击快捷完成数据备份和回档设置,如下图所示:
mysql数据备份页面mysql数据备份页面
  • 数据备份覆盖度,目前数据产品均有数据备份能力,常见例如mysql,redis,ckafka,es,pg等等

2.2 同城冷备份方案

同城数据冷备方案主要依赖于云平台能力备份能力,对现有业务架构没有任何改造,方案架构如下:

同城数据冷备方案同城数据冷备方案

该方案核心要点说明:

  • 数据备份:云侧数据库mysql和redis在控制台设置数据备份参数,数据备份存储在COS,具备地域级别容灾,RPO依赖于数据库备份周期以及时间。
  • 数据一致性:业务单写,不存在数据一致性的问题。
  • 实施周期:云数据库mysql和redis默认会开启数据备份,可以根据业务需求,来设置数据备份时间。
  • 业务改造:对业务没有入侵,不需要改造。
  • 资源成本:仅增加mysql数据备份存储成本。目前mysql备份已经商业化,依据业务对数据备份保留时间,会增加存储成本。redis目前备份存储数据是免费的。

2.3 业务恢复以及回切

通常单可用区故障,云平台具备较强恢复能力,如果出现极端情况,云平台自愈能力超出预期,通过在同地域其他可用区进行资源1:1的部署恢复。

  • redis通过购买云redis使用之前备份数据进行恢复即可。
  • mysql数据恢复主要有四种方式:
    1. 在CVM自建mysql数据库,将备份数据导致恢复,目前控制台仅支持物理备份自动备份,如果使用逻辑备份恢复,需要用户定期调用api和控制台手动操作,恢复过程中要做一些适配兼容。
    2. 新购云上mysql实例,下载逻辑备份进行手动恢复。
    3. 采用数据库克隆功能,对数据库数据进行自动恢复。
    4. 采用数据库备份恢复服务,对数据库进行自动回复,会增加长期成本。

当原先可用区恢复后,这里要评估业务是否回切,通常恢复业务和之前可用区业务耦合性较低,企业一般都不会选择切回。如果企业有业务切回需求,主要依赖于dts数据同步工具,当追平数据后,在业务低峰期将业务切回之前可用区。

3. 本文小结

同城冷备方案,在云平台的协助下,企业几乎0成本并拥有同城数据冷备能力来保障业务生命线。

指标

详细说明

容灾能力

具备同地域(不同可用区)数据备份能力,不具备不同地域的能力。

RPO/RTO

故障RPO小时级别,依赖于数据备份时间;RTO为小时级别,进行1:1业务部署,依赖于业务部署和数据恢复自动化能力。

资源费用

目前云上备份均有免费额度,合理控制备份时间,资源费用几乎为0。

业务改造

业务改造成本为0。

数据备份

依赖于云平台的数据备份能力,数据备份和恢复成本几乎为0。

业务恢复

业务恢复成本较高, 1. 业务部署能力,业务恢复依赖于业务测试部署自动化能力。 2.业务验证能力,业务恢复相当于业务重新部署,对于业务全面测试验证上线能力要求较高。 3.容灾演练能力建设,增加平时运维成本以及自动化工具开发功能。

0 人点赞