随着企业数字化转型进入深水区,越来越多的企业视湖仓一体为数字变革的重要契机,湖仓一体也受到了前所未有的关注。当然,关注度越高市场上的声音也就越嘈杂,很多过时甚至错误的湖仓一体技术和理念不胫而走,很有可能将转型中的企业引入歧途,推高数据孤岛,造成资源浪费甚至错过数字化转型的战略时机。
伪湖仓一体自然是我们不愿看到的,而想要理解什么是真正的湖仓一体,则需要对技术背景及其演进历程有清晰的认知,当然这对多数读者都很挑战,因此笔者尝试从技术背景和发展脉络的角度给出湖仓一体的终极答案。
湖仓一体架构走向舞台中央
湖仓分体模式持续筑高数据孤岛并引发一些列实施、运维和成本问题,那么湖仓一体能否彻底解决这些问题?应该从哪些方面入手?湖仓一体有何标准?Gartner 认为湖仓一体是将数据湖的灵活性和数仓的易用性、规范性、高性能结合起来的融合架构,无数据孤岛。
造成数据孤岛的三点主要原因:➀数据多集群冗余存储 ➁集群规模受限 ➂集群高并发受限,都应该在湖仓一体架构中得以解决。此外,近年来数字化转型带来的业务需求和技术难点也应该在新一代的湖仓一体架构中得到关注和解决,具体包括如下四个方面:
湖仓一体的锚点怎么定?
理解了上文湖仓一体应该关注的重点,湖仓一体的本质和要求也就呼之欲出⸺真正的在数据和查询层面形成一体化架构,彻底解决实时性和并发度,以及集群规模受限、非结构化数据无法整合、建模路径冗长、数据一致性弱、性能瓶颈等问题,有效降低 IT 运维成本和数据管理的技术门槛。
为此,我们总结出湖仓一体 ANCHOR 标准,ANCHOR 中文译为锚点、顶梁柱,或将成为湖仓一体浪潮下的定海神针。ANCHOR 具有六大特性,其 6 个字母分别代表:All Data Types(支持多类型数据)、Native on Cloud(云原生)、Consistency(数据一致性)、High Concurrency (超高并发)、One Copy of Data(一份数据)、Real-Time(实时 T 0)。
使用 ANCHOR 六大特性很容易判断出某一系统设计是否真正满足湖仓一体,那么,满足 ANCHOR 定义的湖仓一体将在哪些方面为企业带来价值?处在转型中的企业又该如何真正理解湖仓一体的真正内涵?