在大数据产业近十年潮起潮落的变迁中,有一座穿越迷雾的灯塔,驱散了人们对数据应用的疑虑,照亮了数据价值回归的征程。
它的名字叫大数据平台,是技术进化生态链的优选解。从早期侧重于存储、功能相对简单的数据库,过渡到汇集结构化数据、擅长统计分析的数据仓库,再跃升至面向复杂数据应用场景、可提供前瞻性预测的大数据平台,千行百业的数字化转型才真正拥有了坚实的底座,积累数据资源、创新商业模式成为很多企业跨越性成长的跳板。
繁荣背后的隐忧
透过权威统计的数字,亦可略窥大数据平台举足轻重的市场地位。IDC最新发布的研究报告显示:2020年全球大数据软件市场规模达4813.6亿元,中国市场包括硬软服在内的总体规模为677.3亿元,其中大数据平台软件为92.2亿元。预计未来5年,我国大数据平台软件市场平均增长率为25%。
在狂飙突进的发展阶段,进攻似乎是最好的防守。金融、医疗、电力、交通等行业是大数据平台建设的先行军和受益者,通过采集、整合生产或服务产业链各环节的数据,借助精准获客等营销手段实现了业绩增长,并逐步将数据挖掘的场景扩展到前端制造、个性化定制等领域。
然而,繁荣也会制造假象,仿佛搭上大数据平台,好事自然来。业务驱动往往是企业部署大数据平台的原始动力,但在期望丰厚回报的同时,绝不能忽视构筑坚固的防线。在数字化转型的深水区,大数据平台通常承载着企业关键业务的运行,一旦出现宕机或安全问题,必然造成难以弥补的损失。
那么,谁是大数据平台的“守护神”?怎样的防线才能让进攻无后顾之忧?
复杂系统最柔弱的软肋
墨菲定律说:如果事情有变坏的可能,不管这种可能性有多小,它总会发生。
搭载海量数据、连接众多节点、融合多元组件的大数据平台,无疑是典型的复杂系统,而这正是墨菲定律屡试不爽的舞台。任何看似微小的冲击,都会带来难以预期的连锁反应,甚至造成整个系统的崩溃。
寻找系统中真正的软肋,是谋求对策最核心的步骤。大数据平台最柔弱的地方,有些属于幸福的烦恼,当然也有致命的威胁。
海量数据本来是大数据平台进行智能挖掘和业务增值的宝贵资产,但普遍存在规模过于庞大、数据格式纷杂、衍生设备繁多等痛点。预计到2025年,中国产生的数据总量将飙升至48.6 ZB,这对大数据平台的数据防护能力带来前所未有的挑战。
很多企业的数据量已经达到了PB级,而目前大数据平台完成相关数据全部备份的时间通常要几天,甚至超过一周。所谓夜长梦多,备份需要的时间越久,隐患发作的机会就越多。在有限的窗口期内,尽快完成备份目标,才可能将危险扼杀于萌芽。
即使备份高效完成,也不等于一劳永逸。海量数据的备份副本若想在大数据平台长时间保留,累积占用的存储空间会呈几何级数增长。只有通过行之有效的“减肥瘦身”,最大限度地降低存储成本,才有望让数据“延年益寿”。
影响备份整体效果的因素不只是时间和成本,还必须综合考虑不同行业的合规要求、异构版本的兼容问题。以合规保留为例:一些行业规定相关数据必须留存几年乃至几十年,传统的备份方式难以满足需求,大数据平台需要在特殊介质存储和云存储等方面做好预案。
篱笆扎得再紧,也不可能挡住所有风险。勒索病毒的攻击性无出其右,大数据平台可以借助云端备份等方式进行应对,但不同软件和解决方案在数据防篡改能力上依然存在不小的差距——找到优秀的合作伙伴,会增添几分胜算。
直面痛点的全面防护方案
从某种意义上讲,数据备份能力已成为大数据平台核心竞争力的构成要件,也是衡量其安全防线稳固程度的重要指标。
挑战和机遇,是一枚硬币的两面。针对大数据平台在防守端的痛点,爱数推出了AnyBackup大数据平台保护方案。凭借重复数据删除、永久增量、多节点并发及表粒度备份恢复、数据一致性保障等多种技术的加持,AnyBackup可为PB级、百节点集群规模的大数据平台提供更高效、经济、安全的全面保障。
与传统的完全备份方式相比,AnyBackup采用永久增量备份的新技术,效率提升96 倍以上;永久增量备份还与重复数据删除技术相结合,节约90%的存储资源;借助不可变存储技术,能实现备份数据防篡改,擢升了抵御勒索病毒的能力;为满足合规性需求,可提供基于磁带、云存储等多种介质的归档方式。考虑到大数据平台生态的丰富性,AnyBackup还全面兼容各种平台及其组件,并支持异构版本间的数据恢复。
在诸多主流大数据平台中,Hadoop无论市场份额抑或影响力,都是当前国内市场的翘楚。以Hadoop平台为基础的应用框架,各类组件相互兼容,组成了一个相对独立的生态系统。其中,HDFS和MapReduce是体系里的核心角色,Hive与HBase则是最重要的应用组件。
防线是否坚固,必须经受来自主战场的实战考验。AnyBackup专门面向 Hadoop体系的HDFS、Hive和HBase,分别提供了量身定制的解决方案。每个方案都直面难点、切中要害,为大数据平台的全面防护树立了标杆。
HDFS 作为分布式文件系统,承担了存储Hadoop海量数据的任务。由于节点多、数据种类复杂、价值密度较低,HDFS存在备份时间长、存储成本高等常见问题。AnyBackup HDFS数据保护方案根据客户需求,将代理部署在HDFS集群中或集群外,从而实现性能保障或减少主机资源占用的目标。备份时结合增量比对算法,可实现数据的永久增量备份;无论HDFS的副本数多庞大,仅备份一个副本的数据;支持文件目录按需过滤,灵活缩减备份数据源,进一步提升了备份效率并降低了存储成本。
Hive是构建在 Hadoop平台上的数据仓库工具,也是整个平台拥有最大数据量的应用组件。基于架构要求,Hive的元数据和数据分离存储,这增大了备份时保障数据一致性的难度。加之Hive的元数据库可兼容多种关系型数据库,数据保护方案的适配性也至关重要。AnyBackup Hive数据保护方案无需停机,在线即可实现海量数据的备份,有效解决了备份数据一致性的问题。同时,AnyBackup可忽略具体的关系型数据库选型,从而实现所有Hive Metastore的全面适配。
HBase分布式存储系统为Hadoop平台提供了海量数据实时访问的能力。由于HBase管理着海量数据,且支持基于RegionSever的水平扩展和HDFS 的存储扩展,对数据保护的效率和性价比要求颇高。AnyBackup HBase数据保护方案支持表粒度的备份恢复,能够精准地修复相关数据,提升了数据保护效率。值得一提的是,AnyBackup还支持HBase备份副本间任意时间点的恢复,满足更高的RPO要求。
从方案构建到落地生根,还有很长的路要走。目前,AnyBackup已在国家医保局这样的重磅机构得到了实施和验证,爱数与企业级大数据基础软件平台星环科技的深度合作也渐次展开——双方已完成了兼容性测试和彼此的产品认证,携手打造的AnyBackup TDH大数据平台保护方案未来有望在政府、金融、电力、能源等领域开花结果。
大数据平台攻守平衡的新时代,正朝我们大踏步地走来。人工智能的深度应用让大数据平台在数据挖掘、分析决策等进攻领域如虎添翼,而安全理念的不断升级与备份技术的持续进化,又使大数据平台的防守固若金汤。曾经照亮行业前程的灯塔,将变成彻底驱散黑暗的浩瀚星空。