腾讯专有云荣获《2023年信息通信领域安全生产优秀成果》一等奖

2023-11-23 11:25:17 浏览数 (2)

引言

11月13日,中国信息通信研究院组织的全国5G网络运行安全能力提升专项行动工作交流会在南京召开。其中在广东省通信管理局的指导推荐下,腾讯专有云《基于AZ内与跨AZ故障演练的专有云服务风险隐患排查体系》获得《2023年信息通信领域安全生产优秀成果》一等奖,此为广东省唯一一个通信领域安全生产专项一等奖。

系统稳定,是云计算的基石

在国家众多产业大力发展云计算技术的时代背景下,客户对于系统整体的稳定性要求越来越高。而对专有云而言,尤其是金融、保险类客户在生产活动实践中,对于线上故障几乎是零容忍。

造成这种强烈诉求的根源是,云服务的稳定性直接影响了国计民生的方方面面。那么如何保障云平台的稳定性呢?

  1. 降发生,即降低故障发生的概率。
  2. 降影响,即降低故障发生后的影响范围。

故障发生以后,任何操作都只能降低影响,因此我们在保证具备有效降影响的手段外,更需要一套完整的体系来降低故障发生的概率,力求以防患于未然,从而从根本上提高系统和应用的鲁棒性,风险隐患排查是有效的手段之一。

腾讯专有云高可用能力卓越,在严苛评审下突出重围

腾讯专有云是基于腾讯公有云的成熟技术体系推出的私有化版本,蕴含着腾讯公有云多年大规模稳定运营的最佳实践和设计理念在内,主要包含两大产品,腾讯专有云企业版(Tencent Cloud Enterprise,以下简称专有云TCE)主要提供全栈解决方案,腾讯专有云PaaS平台(Tencent Cloud-native Suite,以下简称专有云TCS)主要提供云原生技术平台,整合PaaS&SaaS灵活输出。

从用户分类来看,约80%的客户属于金融客户,金融客户对云平台可用性要求相比其他行业更高。在海量交付的背景下,风险隐患排查在专有云稳定性体系建设中十分重要,因为任何一个风险都可能在多个客户局点爆发。

基于TCE和TCS丰富的客户实战经验,专有云沉淀了《基于AZ内与跨AZ故障演练的专有云服务风险隐患排查体系》方案,该方案基于历史故障根因、触发环境以及故障反映出的系统架构缺陷,设计合理的AZ 内以及跨 AZ 故障场景以验证复杂系统和单个应用的稳定性。方案通过混沌工程演练平台Oscar 对云平台及云产品进行 AZ 内故障自动化演练,通过容灾切换平台DMRS 对云产品在跨 AZ 故障场景下进行容 灾切换能力自动化验证,从而进行风险隐患排查,提高云平台及其云产品的稳定性和可靠性,为用户提供更加安全、稳定的云服务。该方案还为云产品设计了严格的混沌成熟度标准,配合周期性的红蓝对抗演练来进行评分,进一步推动风险整改。

该方案在政务专区、金融专区以及多个金融客户局点累计组织500余次演练,累计发现并解决问题 30 项,推动产品、交付工艺、低阶网络设计等优化18 项。在已完成的多个专有云容灾演练项目中,实现了核心组件RPO=0、云平台切换 RTO<20 分钟、云产品切换 RTO<1 小时,容灾切换效果达到了证券期货经营机构信息系统备份能力标准第五级的要求。TCE(腾讯专有云企业版)项目单机房断电恢复耗时由天级别优化至小时级别,并在多个项目真实空调故障/电力故障场景下辅助项目完成上电恢复。

最终在广东省通信管理局的指导推荐下,腾讯专有云凭借自身优异的稳定性和多年的技术沉淀,在数百个案例的评选中,被评为一等奖。

结语

目前腾讯专有云TCE和TCS已经在金融、零售、政务、政法、交通、出行、广电、地产、制造等众多行业取得大量成功案例落地,在业界获得了广泛的认可。

未来,腾讯专有云将持续优化混沌工程实践、拓展容灾演练场景、引入智能监控和预警系统、加强安全防护措施。加大力度提升云平台的安全稳定能力,建设成为让客户安全可信赖的云服务商。

0 人点赞