1、数据去重技术
当我们进行集中数据备份和归档时,重复的数据块会导致存储费用快速上升,同时也会占用数据传输带宽,这时就需要去重技术(重复数据删除技术)。
数据去重技术通常用于基于磁盘的备份系统,通过在某个时间周期内删除不同文件中不同位置的重复可变大小数据块,减少存储系统中使用的存储容量。
数据去重技术的过程是指:在存储数据前,以块为单位进行哈希比对,对已经存储的数据块不再进行存储,只是用索引来记录该数据块;对没有存储的新数据块,进行物理存储,再用索引记录,这样同的数据块物理上只存储一次。通过索引,可以到完整的数据逻辑视图,而实际上物理存储的数据却很少。
数据去重技术主要分为基于软件的重复数据删除和基于硬件的重复数据删除两种方式:基于软件的重复数据删除旨在消除源端的冗余,以此减少带宽的压力。但是,基于软件的重复数据删除维护十分困难,如果想用一个全新的产来替换原有的备份引擎,就会导致之前的数据完全不可用。
基于硬件的重复数据删除在存储系统本身进行数据削减,具有更高的压缩比,更加适合大型企业使用。正常情况下,备份软件会将专用设备成一般的“磁盘系统”,并且不会感知其内部正在进行的重复数据删除进程。具有更高的压缩比,更加适合大型企业使用。
另外,数据去重又分为源端去重和目标端去重:
源端去重是指当数据从“源端”传输到“目标端”之前,在源端先对被传输的数据块进行哈希比对,如果该数据块先前已经被传输过,只需要传输哈希索引值;如果该数据块先前没有被传输过,就传输该数据块,并记录该数据块的哈希值。目标端去重是指当数据从“源端”传输到“目标端”的过程中,把数据块传送到目标端,在目标端进行去重操作。
重复数据的删除并非灾备系统中的必备环节,英方字节数据捕获与复制技术、增量数据复制技术在源端就可以有效解决数据重复传输的问题。
2、数据加密与传输技术
数据级灾备往往依托于多部门、多单位甚至是跨系统地综合协作,因此数据在传输过程或存储介质上的安全性问题也会格外突出。
在灾备工作的具体实践中,英方主要采用基于端及基于传输通道的加密方式进行数据的安全保护,以往的数据灾备更多的是企业自主行为,不管是源端、备端还是传输网络都是企业自有资源,安全性较高,所以很多灾备系统往往只将注意力集中在可用性和完整性上,对机密性缺乏关注。
现在,在娱乐行业,很多电影、音乐、图书、游戏的数据都保存在云端,业务云化开始不断地提供大家多种多样的数字生活。但是,在云端的业务数据存在很多由网络攻击、误操作造成的数据丢失等风险,因此企业或个人,需要对云端的安全性加强防范意识。
首先,从备份数据存储安全性的角度来,备份数据如果在存储介质上以明文方式存放,容易被黑客攻击造成数据外泄。
其次,从备份数据传输安全性的角度来,备份数据如果在网络传输过程中以明文或不当的加密方式传输,容易通过数据截取等手段造成备份数据泄露。
目前,针对数据的加密方式有很多,简单分类后大体可以分为两种加密方式:
(1)源端加密
源端加密是对数据的源端产出和目标端的存储进行加密。一个文件系统( 比如Windows加密文件系统)或一个数据库对存储在里的数据进行加密。如果数据存储时进行加密,备份的时候也应地加密。源端加密分为:硬件加密和软件加密。
硬件加密技术是采用硬件数据加密技术对产硬件进行加密,具备防止暴力破解、密码猜测、数据恢复等功能,实现方式有键盘式加密、刷卡式加密,指纹式加密等。
软件加密是通过产内置的加密软件实现对存储设备的加密功能,实现方式主要有软件内密码加密、证书加密、光盘加密等。
在实践中,英方i2CDP即采用了目前流行的AES(Advanced Encryption Standard)加密算法,AES在软件及硬件上都能快速地加解密,易于应用,且只需要很少的存储器。
(2)传输加密
传输加密是在备份数据发起端与备份介质之间串联一个数据加密网关,备份数据发起端先与加密网关建立安全隧道,备份数据通过安全隧道以保证传输安全。同时加密网关以完全透明的方式让数据在备份传输过程中实时被加密。
在具体应用中,最为理想的情况是采用源端加密与传输加密合的方式,存储设备带数据文件加密功能并提供安全隧道服务。备份数据发起端先与加密网关建立安全隧道,备份数据通过安全隧道进行以保证传输安全。同时在备份数据落地到存储介质前,先对备份数据文件进行加密,保证存储介质上存放的都是密文数据。
3、常见存储形态及架构
数据以某种格式记录在计算机内部或外部存储介质上的过程称为数据存储。数据存储对象括数据流在加工过程中产生的临时文件或加工过程中需要查找的信息。存储和灾备并不属于同一领域, 但灾备技术的发展依托于存储技术的发展,数据备份的过程也必须涉及数据的存储过程。
此外,随市场竞争的加剧,灾备企业和存储企业之间的界限也逐模糊,互之间的市场渗透也在不断加剧。因此谈灾备,必然谈存储。存储根据服务器类型分为封闭系统的存储(封闭系统主要指大型机)和开放系统的存储(开放系统指基于Windows、UNIX、Linux等操作系统的服务器)。
开放系统的存储分为:内置存储和外挂存储。
外挂存储根据连接的方式分为:直连式存储(Direct Attached Storage—DAS)和网络存储(NAS);网络化存储根据传输协议又分为网络接入存储(NAS)和存储区域网络(Storage Area Network—SAN)。
(1)直连式存储 (DAS)
DAS这种存储方式与普通的PC存储架构一样,外部存储设备都是直接挂接在服务器内部总线上,数据存储设备是整个服务器构的一部分。DAS直连式存储与服务器主机之间的连接通常采用SCSI连接,服务器主机SCSI ID资源有限,能够建立的SCSI通道连接有限。
无论直连式存储还是服务器主机的扩展,从一台服务器扩展为多台服JBOD务器组成的群集(Cluster),或存储阵列容量的扩展,都容易造成业务系统的宕机。DAS存储方式主要适用以下环境:
小型网络:因为网络规模较小,数据存储量小,采用这种存储方式对服务器的影响不会很大,并且这种存储方式也十分经济,适合拥有小型网络的企业用户。
地理位置分散的网络:虽然企业总体网络规模较大,但在地理分布上很分散,通过SAN或NAS在它们之间进行互联非常困难,此时各分支机构的服务器也可采用DAS存储方式,这样可以降低成本。
特殊应用服务器:在一些特殊应用服务器上,如微软的集群服务器或某些数据库使用的原始分区,均要求存储设备直接连接到应用服务器。
提高DAS存储性能:在服务器与存储的各种连接方式中,DAS被认为是一种低效率的构,而且也不方便进行数据保护。直连存储无法共享,因此经常出现的情况是某台服务器的存储空间不足,而其他一些服务器却有大量的存储空间处于闲置状态无法利用。如果存储不能共享,就谈不上容量分配与使用需求之间的平衡。
DAS构下的数据保护流程对复杂,如果做网络备份,那么每台服务器都必须单独进行备份,而且所有的数据流都要通过网络传输。如果不做网络备份,那么就要为每台服务器都配一套备份软 件和磁带设备,导致备份流程的复杂度会大大增加。
(2)存储区域网络 (SAN)
SAN存储方式创造了存储的网络化。存储网络化顺应了计算机服务器体系构网络化的趋势。SAN的支撑技术是光纤通道(FiberChannel)技术。它是ANSI为SAN网络和通道I/O接口建立的一个标准集成。FC技术支持HIPPI、IPI、SCSI、IP、ATM等多种高级协议,其最大特性是将网络和设备的通信协议与传输物理介质隔离开,这样多种协议可在同一个物理连接上同时传送。
SAN允许企业独立地增加存储容量。它的构允许任何服务器连接到任何存储阵列,这样不管数据放在哪里,服务器都可以直接存取所 需的数据。因为采用了光纤接口,SAN还具有更高的带宽。
SAN的硬件基础设施是光纤通道,用光纤通道构建的SAN由以下三个部分组:
存储和备份设备:括磁带、磁盘和光盘库等。
光纤通道网络连接部件:括主机总线适配卡、驱动程序、光缆、集线器、交换机、光纤通道和SCSI间的桥接器。
应用和管理软件:括备份软件、存储资源管理软件和存储设备管理软件。SAN的优点括网络部署容易、高速存储性能和良好的扩展能力等。
(3)存储区域网络 (NAS)
存储区域网络(NAS)方式则全改进了以前DAS存储方式。它采用独立于服务器,单独为网络数据存储而开发的一种文件服务器来连接所存储设备,自形成一个网络。这样数据存储就不再是 服务器的附属,而是作为独立网络节点存在于网络之中,可由所有的网络用户共享。NAS的优点包括:
即插即用:NAS是独立的存储节点存在于网络之中,与用户的操作系统平台无关,真正的即插即用。
存储部署简单:NAS不依赖通用的操作系统,而是采用一个向用户设计的,专门用于数据存储的简化操作系统,内置了与网络连接所需要的协议,因此使整个系统的管理和设置较为简单。
存储设备位置非常灵活,管理容易且成本低:NAS数据存储方式是基于现有的企业Ethernet而设计的,按照TCP/IP协议进行通信,以文件的I/O方式进行数据传输。
当然,NAS也并非十全十美,存储性能较低、可靠度低是其主要缺点。
基于NAS存储的海量数据的实时备份和容灾是行业技术难点,英方根 据多年的灾备实施经验,向业界提供了i2NAS海量数据灾备方案,针对NAS存储的分布式共享目录,以IO事件通知的方式实现准实时的数据同步与备份,为企业用户提供TB级的数据灾备服务。
除了以上三种常见的存储方式,比较常见的还有对象存储与分布式存储。对象存储系统(Object-Based Storage System—OBS)是综合了NAS和SAN的优点,同时具有SAN的高速直接访问和 NAS的数据共享等优势,提供了高可靠性、跨平台性以及安全的数据共享的存储体系构。
对象存储系统,可以在一个持久稳固且高度可用的系统中存储任意的对象,且独立于虚拟机实例之外。应用和用户可以在对象存储中使用简单的API访问数据;这些通常都基于表属性状态转移(REST)架构,但是也有向编程语言的界。
对象存储提供了数据上受限操作的访问控制。数据管理员可以在bucket层级上(类似于目录)或对象层级上(类似目录中的文件)应用访问控制。存储对象的授权/认证通过云供应商的身份认证管理系统或你的目录服务来管理。通过后,可能有一个本地的目录,同基于云的目录服务同步,巩固所有的访问控制角色和进入单一注册库的特权。因此,对象存储被认为是云存储得以快速发展的基础。
分布式存储系统利用了分布式技术将标准X86服务器的本地HDD(机械硬盘)、SSD(固态硬盘)等存储介质组织成一个大规模存储资源池,但数据其实是分散存储在多台独立的设备上。
传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,也是可靠性和安全性的焦点,不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展的系统构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。