运维平台第5期:业务永续

2022-06-24 17:41:05 浏览数 (2)

在上一期《数据掘金者》中,主要介绍的是有别于传统日志的腾讯专有云日志平台。本期给大家带来是专有云中不可或缺的保险机制——容灾管理系统。

容灾是指在相隔较远的异地(不同地域或者不同可用区),建立两套或多套功能相同的 IT 系统,互相之间可以进行健康状态监视和功能切换,当一处系统因意外(如火灾、地震等)停止工作时,整个应用系统可以切换到另一处,使得该系统功能可以继续正常工作。

腾讯专有云 Tencent TCE(Tencent Cloud Enterprise)作为基于腾讯云成熟产品体系的企业级专有云平台,满足金融、政企等客户对于容灾高可用能力要求,提供同城容灾(不同可用区)和异地(不同地域)容灾方案。

容灾的关键技术指标

  • RTO:Recovery Time Object,恢复时间目标。灾难发生后,信息系统或业务功能从停顿到必须恢复的时间要求。RTO 值越小,代表容灾系统的恢复能力越强,但企业投资也越高。
  • RPO:Recovery Point Object,恢复点目标。灾难发生后,系统和数据必须恢复到的时间点要求。RPO 值越小,代表企业数据丢失越少,企业损失越小。

系统容灾能力标准

我国的国家标准《GB20988-2007-T 信息安全技术信息系统灾难恢复规范》对容灾数据中心根据 RPO 与 RTO 两项指标分成了6个相应的等级,如下所示:

容灾等级

RTO

RPO

第1级

2天以上

1天至7天

第2级

24小时以上

1天至7天

第3级

12小时以上

数小时至1天

第4级

数小时至2天

数小时至1天

第5级

数分钟至2天

0至30分钟

第6级

数分钟

0

为什么需要容灾管理系统

容灾是一个系统工程,不仅仅跟云平台和产品本身的容灾能力有关,还跟实际部署形态、配置、运维人员技能等强相关。这就是容灾演练的意义所在。

  • 需要有一个统一的入口能够查看整个系统的云平台和产品的实时容灾状态,进行容灾能力评估和故障修复;
  • 需要能够定时进行系统容灾能力巡检,提前发现不满足项,进行提前修复,确保故障发生时能够切换;
  • 容灾切换是一项复杂的工程,云平台和产品都需要进行相关的切换操作进行恢复,操作的步骤很多很复杂,需要有一个系统能够屏蔽切换细节简化容灾切换的步骤,提升切换效率,有效降低 RTO;
  • 需要能够通过容灾演练验证已建成容灾系统的可用性、有效性,通过演练结果来修正、补充、完善容灾应急预案并为容灾系统的升级建设提供理论依据及数据指标,考验演练中团队的决策与指挥能力,从而使企业在容灾建设中有据可依,保证建成的容灾系统能充分实现建设的目的。

容灾管理系统的功能

容灾管理系统(DRMS)是为了在AZ级故障发生时,快速实现容灾切换,尽可能地降低 RTO,而开发出的白屏化切换工具。DRMS 有独立的权限系统和域名,即使 Tencent TCE 云平台不可用也不受影响,提供 Tencent TCE整个云平台和产品的容灾状态监控、故障切换能力。

容灾监控

  • 云产品容灾能力监控,能够查看不同云产品集群的容灾状态。
  • 数据类产品基于实例级的数据同步监控,能够查看每个实例的数据同步状态,RPO 指标等。

容灾演练

容灾演练支持演练的故障场景包括 MAZ 隔离、SAZ 隔离和 MAZ&SAZ 脑裂三种场景。演练过程分为故障切换演练和故障恢复回切演练两个大的阶段。

  • 演练切换步骤:切换前检查->模拟故障->执行切换->切换后检查
  • 演练回切步骤:故障恢复->回切前检查->执行回切->回切后检查

容灾应急预案

容灾应急预案是基于故障场景,预先在系统内置的故障切换方案,当真实灾难发生时,登录 DRMS 选择对应的应急预案,进行快速容灾故障处理。

结语

容灾是一项系统工程,需要容灾管理系统(DRMS)和云平台配合提升,才能有效提升系统的容灾能力,提升 RTO/RPO 指标。容灾管理系统(DRMS)将继续完善同城容灾、异地容灾等场景容灾巡检、快速切换能力,提升 Tencent TCE 的容灾能力。

感谢本期作者曾玮给我们带来的精彩解说,喜欢的朋友们可以点一下关注,咱们下期见~

-【END】-

没看够?下面还有!

往期 · 推荐

8.18腾讯全球数字生态大会,与您相约武汉

荣获两项认证!腾讯云WeCity未来城市再获新成就!

运维平台第4期:数据掘金者

运维专题第3期:诊断专家

0 人点赞