一、异地灾备防范于未然
2001年的“911事件”中,没有远程备份的企业都遭受了巨大损失,甚至部分公司因为核心业务部署在公司大楼而又没有远程备份,导致公司业务无法继续运营而倒闭。美国“911事件”后,全球用户提升了对灾备的重视程度,异地灾备建设一时成为趋势。
异地容灾备份一般指在与生产机房有一定距离的异地建立与生产机房类似的信息平台(备份中心),并采用特定的技术将生产中心的数据传输到该备份中心,从而在生产中心发生较大的灾难如火灾或地质灾害时,仍能对生产数据进行保护的容灾系统。异地灾备中心的选址还必须做到“三不”,即不 在同一地震带,不在同一电网,不在同一江河流域。
传统的异地灾备中,两地三中心是最为稳固的、保护等级最高,也是成本最高的灾备方案。两地三中心是一个生产数据中心、一个同城灾备中心再加一个异地灾备中心组成。且要求本地的生产中心和灾备中心相距100km以上,进行应用级或业务级容灾保护,在300km 以外的异地建立灾备中心,进行数据级或应用级容灾保护。
二、异地灾备方案构建成本高
传统异地灾备中心建设成本,要考虑以下几个部分:
1)场地费用:包括灾备机房基础设施费用,灾备中心人员费用等。
2)设备费用:包括购买的灾备存储、交换机、路由器、协议转换器、主机等各种设备的费用。
3)传输网络费用:这一部分费用随着灾备技术路线的不同更是差距明显,传输距离越远,传输费用越高。
4)运维费用:这部分的费用包括向厂商购买的每年服务和应急的专业服务费用,还包括高级别的系统维护人员的费用。
与同城灾备相比,传统异地灾备方案考虑到灾备中心的数量和距离因素,以上介绍的几个成本因素会成倍增加,甚至可以达到几十倍的成本差异。
显然,大部分中小型企业是难以承担如此高昂的灾备费用的。
但中小型企业也有高业务连续性的需求,比如电商企业的订单交易系统,期望7*24h持续运行,一旦发生宕机,企业遭受的成本损失无法估量。
我们可以利用腾讯云实现异地灾备,成本问题就迎刃而解了。
三、云容灾成本优势
不同于传统的灾备方式,需要建立相同的一套架构来对应生产中心可能的故障失效,可能要花费数月甚至数年的建设时间。而云容灾模式,允许用户将传统的采购模式转化为按服务交付使用的方式,云数据中心的各种资源即开即用,能够快速部署,大幅缩短了云容灾建设的进程,让云容灾成为一种普惠型的服务。
容灾实现的等级与前期投入相关,等级越高,前期投资就越大。云容灾不仅初期成本的投入降低,而且在容灾过程中,合理的使用云原生特性,能够大幅度降低用于容灾的云资源成本。例如:在容灾过程中,可以使用块存储或对象存储资源进行数据存储,而需要业务接管时,再恢复业务。在日常容灾过程中,用户只需要为存储资源买单,在演练或接管时则按量付费,大幅度降低了容灾资源的成本。
传统运维业务系统复杂,需要大量的专业运维人员。而云上资源的可编排性以及自助化的容灾使用体验,降低了对人员技术能力要求,直接降低了运维的复杂度。
四、云上可以实现异地灾备吗
为了适应云和大数据时代,利用云容灾技术来实现异地灾备方案,不仅可以提高业务连续性,还有利于降低灾备成本。这里介绍一下,在信通院发布的2022年《云容灾白皮书》中,提到的两个利用云实现异地灾备的场景:云双活、云多活。
4.1云双活
云双活在技术上更关注数据同步与流量管理能力。该架构要求两个生产中心之间的数据同步须保持实时性、一致性,并且外部能够通过调度策略、流量控制实现全局流量管理,各访问请求利用配置策略分发,避免单点故障。常见的应用场景包括两地三中心。
在两地三中心的异地灾备场景中,由一个生产数据中心、一个同城灾备中心再加一个异地灾备中心组成。其中同城灾备与异地灾备相比,在 RTO 和 RPO 上有一定的提升,但实际功能类似,对业务连续性没有质的提高。因此,更应该将同城灾备改造成同城双活,形成同城双活、异地灾备的两地三中心模式。既能实现数据零丢失和故障自动切换,又能应对区域性重大灾难(如自然灾害、战争、城市骨干线路中断等)的发生,有效提升数据中心的可用率。
4.2云多活
云多活是指同一套业务系统分别部署在两个地域以上的多个数据中心,同时对外提供服务的业务场景。云多活主要体现在“多地域”和“多活”两个概念上。多地域是指地域划分,如不同省市地区或者不同国家地区;多活则是指多个地域部署同一套业务系统同时提供业务服务,都处于生产状态。能力要求上更侧重于具备异地双活以及多活的能力,由于长距离传输的时延问题,各业务场景下对实时性、一致性、可用性等要求不尽相同。
五、用HyperBDR云容灾低成本实现腾讯云异地灾备
由于云服务具有多区域和多可用区的特点,并且在多区域和多可用区之间提供高带宽和低时延的网络连接,因此可以在云的异地可用区实现异地容灾。
这里推荐用万博智云的HyperBDR云容灾工具,低成本构建腾讯云异地容灾方案。
为了攻克资源冗余的问题,HyperBDR在容灾思路上有一个革新。使用HyperBDR云容灾工具构建灾备方案,平时只需要为数据备份消耗的云硬盘付费,不需要在云端1:1预启动实例,只有在恢复业务时才需要启动ECS。
HyperBDR解决了两个问题,一个是备份,这个是大部分企业的基本需求;一个是容灾,这是一小部分客户的需求,且发生灾难的概率较低。用户的容灾成本大部分用在日常备份上,而关键时刻的容灾费用占比很低,用备份的价格达到了容灾的效果,等于客户买了一个双保险。
5.1HyperBDR云容灾的核心优势
目前,HyperBDR云容灾已完成20 朵云的自动化API对接。这就意味着,HyperBDR打通了异构平台的壁垒,实现了数据在云之间的流转。对于企业来说,可以根据自身情况,自由地选择容灾到哪个云平台,不再受IT资源架构差异的限制。
而HyperBDR采用的Boot in cloud技术,可以在发生灾难时一键拉起业务,保障核心业务连续性;并且无需在云端1:1预启动实例,只需要在恢复时启动ECS,减少了云资源的消耗,大幅度降低了成本。
5.2HyperBDR云容灾整体架构
万博智云HyperBDR容灾软件通过调用云平台自身提供的原生API接口,以及通过调度源端Agent、或Agentless无代理方式(视不同源端环境)来捕获全量、差异数据,通过点到点加密网络传输至目标云侧「云存储网关」,本地没有数据留存,安全高效。
5.3容灾上腾讯云具体实现
这里以10台VMware虚拟机,两套业务系统,容灾至腾讯云为例。
基础条件:
(1)需要容灾的主机:10台。
(2)根据主机数量1:1购买license:10个。
(3)有腾讯云资源,有腾讯云平台的管理权限。
5.3.1 配置生产平台 (VMware)
第一步:点击菜单栏 生产平台设置,点击 VMware 选择框。
第二步:点击 添加 按钮,安装源端hamal无代理组件的安装部署;
首次添加VMware需要安装hamal组件。
第三步:按照界面指引安装hamal。
第四步:弹框中填写相关信息
完成配置vCenter/ESXI 被成功加入到容灾生产平台中,重复以上步骤可以添加多个vCenter(按需)。
完成生产平台VMware配置,可进行添加容灾主机。
左侧菜单选择 资源容灾 -> 主机容灾 之后,右侧点击 添加主机 ,点击 VMware 选项。
选择其中一个VMware源端连接,并点击 下一步 按钮。
在VCenter/ESXi的所有VMware主机列表中 勾选要容灾的主机,并点击 确定 按钮
如果主机较多,可以右上角搜索,并执行批量勾选添加。
在容灾界面可以看到 待容灾的VMware主机清单,勾选要操作的主机,点击 下一步 按钮,进入 容灾配置 操作。
5.3.2配置容灾平台
(1)左侧菜单栏点击 容灾平台设置,在左侧点击选择腾讯云选项。
(2)按步骤填写信息,创建<云同步网关>组件。
云同步网关是万博智云自主开发的云平台适配模块,此处主要作为同步数据过程中,接收生产平台的数据使用。
确认名称和状态可用后,等待“启动代理实例”完成后,点击 完成 按钮。
5.3.3同步数据
进入容灾工具 HyperBDR 界面。
容灾配置步骤一:指定容灾平台,选择容灾主机所在容灾平台的配置信息,并点击 下一步 按钮。
容灾平台信息为空,则表示暂未添加容灾平台,需要 配置容灾平台 ,再进行后续操作。
容灾配置步骤二:指定云同步网关,选择容灾主机并加入到云同步网关,并点击 下一步 按钮。
容灾配置步骤三:指定卷类型,选择容灾主机在目标容灾平台所使用的卷类型,如果有多个卷,可以按照系统卷和数据卷进行分别设置,设置完成后,并点击 下一步 按钮。
容灾配置步骤四:计算资源配置,选择容灾主机在目标容灾平台使用的规格、系统类型、是否重置密码及是否使用密钥对,设置完成后,并点击 下一步 按钮。
容灾配置步骤五:网络配置,选择容灾主机在目标容灾平台所使用的网络、子网以及启动时是否指定IP、配置公网IP和安全组,设置完成后,并点击 下一步 按钮。
容灾配置步骤六:启动配置,选择容灾主机在目标容灾平台所使用的启动设置,设置完成后,并点击 确定 按钮。
容灾配置步骤设置完成后,可以勾选容灾配置完成的单个或多个容灾主机,并点击 下一步 按钮。
在 开始容灾 步骤,可以勾选单个或多个容灾主机,并点击 立即同步 按钮直接进行数据同步,也可以将已经完成 容灾配置 的容灾主机加入到资源组,对 资源组容灾 进行同步数据操作。
确认需要同步的容灾机器,并点击 确定 按钮。
首次点击,将同步全量数据,后续点击将同步增量数据,这里也可以勾选全量数据同步,则表示本次数据同步会全量。
5.3.4容灾接管/演练
等待数据同步完成(同步快照完成),勾选需要容灾演练/容灾接管主机,并选择 容灾演练/容灾接管 按钮。
容灾演练/容灾接管功能保持一致,此功能则表示将容灾主机在容灾平台进行启动,启动后即可进行相关验证和接管工作。
选择容灾主机启动时数据同步时间点(快照),并点击 确定 按钮,开始主机实例启动。
大多数情况下,企业的使用场景是持续备份关键系统数据,而仅在灾难发生时,做云端业务拉起的动作,我们在实践过程中会发现,除了备份会需要消耗一定的云存储外,演练或容灾阶段的费用是极低的。不再需要1:1准备计算资源也能云商恢复,这让企业可以以备份的成本享受到容灾体验。
平时更多用到的是容灾演练。容灾演练通过假设灾难场景,进行应急演练,可以验证灾备方案是否合理,是否能够达到预期;同时演练环境也可以作为系统升级测试验证的环境,尤其是研发型企业,在系统升级、iT环境变化时,容灾演练环境其实就是一个临时测试环境。