业务数据备份采用热备方式,容灾指标RPO接近“零”;但是RTO指标还是依赖于业务部署测试自动化能力。业务会进一步需要,在数据热备技术架构下,在成本可控的情况下,是否能进一步提升RTO指标呢? 本文结合云平台的能力,来进一步讨论这个话题。
1. 方案背景
数据热备,相对于数据冷备,通过数据实时同步,对于RPO指标有了质的提升,达到了业务双活的标准。但是业务恢复指标RTO没质的提升,主要是业务部署验证需要花费时间过于依赖企业运维自动化能力。如果在灾备地域不仅仅部署数据节点,同时将接入层,服务层均进行部署。极端情况出现后,业务恢复省去资源购买,业务部署时间,大幅度缩减RTO耗时,从本质上可以提升RTO时间。这样一来,资源成本会大福上升,而且这些资源平时都不会承载业务流量,资源闲置造成浪费,而且云平台地域级别的故障还是很少见的,对于一个低概率事件,很多企业不承担资源闲置飙升成本现状。
2.核心技术
在IDC年代,资源扩容流程繁琐,而且周期长;在灾备区域,按照1:1资源来部署业务,导致成本翻倍。到了云的时代,资源购买扩容变的更加灵活,灾备区域按照1:0.1部署资源成为可能,当业务恢复的时候,进行同比例扩容来承载线上业务。通常来讲,业务通常部署在虚拟机或者容器里,当前腾讯云平台支持自动扩容,来满足业务按需,及时,快速扩容。
- AS服务,即弹性伸缩,平台可以对虚拟机按照对应规则进行及时扩容,来根据实时需求自动增加或减少 CVM 实例数量,同时完成实例的环境部署,保证业务平稳运行和最大程度的降低成本。
- EKS服务,腾讯云自研的轻量虚拟化技术,确保更快的资源创建效率,用户可以在几秒内创建或删除容器服务。TKE Serverless 集群支持设置 Kubernetes 原生 HPA 的方式,可让服务根据实际负载进行自动伸缩。
3.技术方案
数据热备整体方案为核心业务部署以最小化在备份区部署,增加业务部署能力,同时对成本进行控制;当遇到极端情况下,借助云平台弹性伸缩的能力进行自动扩容,快速恢复业务。具体架构如下:
方案要点:
- 业务部署:在灾备区业务采用最小节点化部署,通过资源使用率进行自动弹性AS和eks进行扩容。mysql采用数据同步方式做实时备份,这里未采用数据库自带灾备实例,主要是由于灾备实例为只读,不方便平时做容灾演练切换。
- 资源成本:存储资源1:1;计算资源最小化部署;流量成本主要包含redis和cos跨地域同步流量。
- 业务恢复:数据层面控制台对redis切换为主实例完成恢复;业务层面通过AS和EKS动态扩容自动完成,业务流程修改DNS解析后快速恢复,RPO为秒级别,RTO预计5分钟内。
4.本文小结
通过云平台灵活能力,在备份区域进行最小化部署,降低企业成本;遇到极端情况,通过云平台弹性自动扩容能力,快速扩容恢复业务。
方案关键因素 | 详细说明 |
---|---|
RPO/RTO | RPO接近为0;RTO分钟级别 |
资源费用 | 备份区实现最小化部署 |
业务改造 | 备份区业务需要适配数据资源地址 |
数据备份 | 依赖于云平台的数据备份能力,数据备份和恢复成本几乎为0。 |
业务恢复 | 业务恢复成本较低,如果以下两个方面做的充分: 1.灾备区日常业务验证能力,对于业务全面测试验证上线能力要求较高。 2.容灾演练能力建设,增加平时运维成本以及自动化工具开发功能。 |