本文组织:
- 灾备系统建设任重道远
- CDM简介
- 南京政务云CDM灾备方案分析
1
灾备系统建设任重道远
灾备系统建设是IT领域永恒的话题,但是,目前很多企业仍未重视灾备建设的重要性。不少企业的数据基本是裸奔状态。有些人认为存储或者服务器上做了RAID就万无一失了,这是被严重误导了,RAID只能防止单盘故障时数据不丢,是为了应对硬盘错误,其目的不是备份,其无法防止由于病毒感染、误删除、环境灾难导致的数据丢失。而另一小部分人则是压根没想着去保护数据。不少企业都是在经历过数据丢失导致的一系列损失之后才痛定思痛的。
近年来,云基础架构被广泛部署,一些中小企业IT系统直接搬上了公有云,但多数企业还是选择部署私有云。云的本质就是虚拟化 统一管理平台,通俗来讲就是用高级网管软件来管理调配系统中所有资源。相比传统架构下的灾备系统,云基础架构之上的灾备系统建设带来的新挑战主要是针对虚拟机环境的特殊性做一系列适配,以及与云管理平台的集成统一管理。
Copy Data Management(CDM)是灾备领域近年来出现的新概念,本文利用一个案例向大家展示CDM如何在私有云中落地实现云虚拟化环境的灾备。
2
CDM简介
相比CDM,大家可能听说更多的是CDP(Continuous Data Protection,连续数据保护),其利用记录基准数据和增量数据日志,然后对日志做索引处理的方式,能够让用户在较短的时间内看到历史时刻数据的任意副本。然而,CDP系统更加注重的是将数据拿到和保护起来,至于这些数据如何被利用,长期以来却似乎并没有受到重视。
而CDM(Copy Data Management,数据副本管理),这个技术概念其出发点就在于它并不关心数据是怎么拿到的,比如是通过传统备份亦或是CDP,也不关心数据放在哪里,比如本地硬盘、SAN、分布式存储、云存储等。它注重的是如何将获取到的数据更好的管理和利用,以及更好的与应用相结合的利用。
CDP面向的场景就是数据的连续保护、备份和恢复,CDP虽然也可以提供数据的历史时间点Image,但是无论是在设计初衷、配置过程、使用过程中都会透着浓浓的为数据恢复而服务的色彩,而不是为了数据使用。相反CDM面向的就是如何使用好对应的数据。
随着大数据时代的来临,企业面对市场的竞争,开始考虑如何提高数据的使用价值,挖掘出数据中隐藏的有效信息,从而快速提升企业的核心竞争力。企业的生产数据,已不仅仅用于业务生产,还有很多非生产环境中也需要这些数据支持。开发新系统时,需要Copy生产数据到研发环境中用于开发;测试系统时,需要Copy生产数据到测试环境中用于调试;数据统计和分析,需要Copy生产数据到统计分析系统中进行处理。
2017年底,国内CDM领头厂商鼎甲科技发布了其CDM一体机:InfoSemper。详细信息可以参阅这里。
3
南京政务云CDM灾备方案分析
3.1 项目概述与需求
南京市政务云系统软硬件设备分布在三个机房:新城机房、电信机房、移动机房。当前,新城机房已有数据约250TB,年预期增长32TB;电信机房拥有存量数据142TB,年预期增长61TB;移动机房数据与系统负载约为电信机房1/2,故三机房总计当前数据容量估计为500TB,年均增长超110TB。
此项目要求建设容灾备份系统,满足新城机房、电信机房、移动机房现有生产业务数据的数据安全支撑,提供平台、数据、文件的全面备份能力。同时:基于数据中心虚拟化平台构建容灾系统,支持备份数据集的直接使用功能,支持报表统计、数据分析、容灾演练等综合应用场景,进一步发挥灾备系统的应用能力。支持VMware、飞天系统虚拟平台系统的备份。三个机房内Oracle数据库要求实现实时备份、挂载恢复能力,要求RPO小于10s,数据库小于1TB挂载恢复RTO不应超过2分钟,数据库小于10TB挂在恢复RTO不应超过5分钟。不改变源端主机配置和备份作业的情况下,直接使用备份集进行容灾演练、报表分析、计算统计等离线功能。支持卷级CDP备份,可以回退到任意时间点,在恢复时支持通过挂载方式实现任意时间点的即时恢复。支持容灾演练功能,提供本地数据备份集挂载恢复演练,细粒度文件、单表恢复演练和机房间远程恢复演练。灾备系统支持定时周期演练,恢复演练过程无需人工干涉,无需额外编写脚本,恢复后结果无需人工启动脚本可以直接进行数据访问。此外还有一些传统备份方面的需求,篇幅所限不再列出。
3.2 鼎甲InfoKist InfoSemper方案
本方案中,供应设备整体纳入统一备份域,由单独管理控制端进行全局调度,设备从功能应用角度,划分为备份服务器(InfoKist)和容灾服务器(InfoSemper),前者提供机房内数据备份、存储管理、数据集恢复能力,后者提供应用连续性、CDM以及数据的即时恢复能力。
鼎甲InfoSemper CDM一体机支持数据库、文件、操作系统和虚拟化设备的增量备份数据与原全量数据合并成为新全量集,从而摆脱周期性全量备份的时间窗口开销。可以结合数据库的连续日志,在虚拟全备的基础上进一步降低RPO。针对于海量的数据资源,分钟级产生测试需要的数据,快速部署到测试环境中;测试数据基于虚拟快照技术,大幅减少测试数据占用的数据存储空间;采用链接克隆和完全克隆的技术,保证测试数据可读写,以及数据源不被改变。定时或周期性产生定制化的副本数据,用于其他部门的数据查询;副本数据与生产系统分离,避免对主存的性能和安全性的影响,进一步提升系统的可靠性;提供数据副本管理的REST API,用户可根据自己业务应用的特点,打造自己的数据管理云平台。
鼎甲 InfoSemper 由一个主服务器(Master Server),一个或多个存储服务器(Storage Server),一个或多个代理端(Agent)联合构建而成。
- 主服务器对所有代理端、存储服务器的数据进行管理;
- 用户通过WEB管理界面,在主服务器上配置好作业信息,主服务器将作业指令下发到代理端。
- 代理端执行数据捕获的作业,把副本数据直接存储到存储服务器中;
- 存储服务器可以把数据直接挂接到客户端,实现数据的即时恢复。
InfoSemper CDM对数据的整个生命周期的管理分为数据捕获/持续增量、副本管理、副本还原/挂载/恢复三个大阶段流程。其中数据捕获阶段支持文件数据捕获、数据库数据捕获、数据文件捕获、日志信息捕获等多种方式渠道。副本管理方面支持文件增量合并、数据库增量合并、链接克隆、多副本管理、生命周期管理等多个方面支持。
图:文件增量合并
图:数据库增量合成和快照处理
2.3 方案技术优势
与云平台全方位对接。鼎甲科技已经与国内外主流的虚拟化平台建立了战略合作关系,实现了适配认证。包括阿里、华为、华三、VMware、Azure等云服务商。已经实现OpenStack多个版本云平台备份的项目,可以实现全方位的对接。鼎甲科技的灾备产品(InfoKist)既支持快照方式,也支持代理方式。并且独创性的提出精简安装模式,可以通过模板或者自动安装方式实现客户端的快速安装、注册和升级操作,让客户拥有丰富的功能体验,同时降低了使用和管理的复杂度。
虚拟机自动发现。鼎甲对于虚拟机平台支持虚拟机自动发现功能,结合静默代理安装模式,还可以实现如下好处:能够自动发现新增虚拟机,并自动纳入到备份保护范围内;能够自动添加新增虚拟机内部的备份资源,包括数据库、文件和操作系统;避免了因为忘记对新增虚拟机备份而造成的数据漏备份的严重问题。
重复数据删除技术。鼎甲数据重删技术与市面上传统的重删技术相比,具备根据数据特征计算而动态选择变长数据切分算法,无需再通过管理人员手工选择变长长度,从而避免因修改数据位移而导致的未修改数据切分到新数据块中的问题,最大限度地提升重删性能和重删率。
CLRP连续日志复制技术。连续日志复制是基于数据块级的复制,通过对数据库服务器中文件系统的消息监控,实时获取重做日志、归档日志等文件的变化情况,并根据变化情况对日志文件进行实时的持续采集。连续日志实时保护技术,实现了对变化数据达到秒级以内的数据保护,连续日志实时保护(CLRP)的主要优势包括:
- 将 RPO 降低到秒级,正常负载条件下 RPO 平均为0.2秒。
- 实时复制的变化数据块非常小,资源占用优于 CDP。
- 无需任何软硬驱动程序,不影响业务系统的运行。
- 无需长备应急备机,可恢复到任意时间点或 SCN。
疏文件零位过滤技术。
稀疏文件,是Unix类和NTFS等文件系统的一个特性,就是在文件中留有很多空余空间,留备将来插入数据使用。开始时,一个稀疏文件不包含用户数据,也没有分配到用来存储用户数据的磁盘空间,这些空余空间被ASCII码的NULL字符占据,当数据被写入稀疏文件时,才逐渐地为其分配磁盘空间。稀疏文件中的NULL字符有可能增长得很大,占用相当大的空间。
对稀疏文件的捕获,如果不剔除这些NULL字符的空间,获取到的文件数据量将会比客户端实际数据量大很多。如:含有1TB实际数据的稀疏文件,捕获后数据量可能有4T。这极大浪费了用户的存储空间,且占用数据传输带宽。对稀疏文件的处理难点在于文件中NULL位数据是不连续的,如果没有较好的数据块截取算法,难以准确地过滤到NULL数据。而且如果数据块提取不正确,还会导致数据捕获中丢失有效数据。这也是有些数据安全保护产品在稀疏文件的处理上,无法兼容所有平台的主要原因。
InfoSemper依靠系统本身所提供的SEEK_DATA、SEEK_HOLE、IOCTL等技术处理外,对于一些低版本的Linux,以及大部分小型计算机上的Unix操作系统,提供了一种数据全零探测技术处理,在初始对目标文件进行捕获前的文件遍历检索处理中,InfoSemper 针对客户端不同的文件系统,按其操作系统对稀疏文件中分配的块大小进行数据提取,以文件块为基准扫描,采用位移方式探测数据是否为NULL,是则采用零位记录处理。在捕获数据的采集处理中,去除零位文件块,获取有效数据进行存储。
稀疏文件的数据全零探测,是与文件数据捕获初期的文件检索同时进行,而且InfoSemper是采用多通道并发文件数据传输,所以在资源和处理时间上的占用,并不会出现明显的增加。InfoSemper对稀疏文件的处理,覆盖了Windows、Linux、Unix等主流平台,准确过滤掉稀疏文件中的NULL,在数据的传输带宽和存储空间上,都极大减少了资源的占用。