作者|QCon
数据架构总是在更新迭代的路上,以使其快速适应变化的数据环境,更为敏捷和规模化地给业务部门交付数据。在传统的数据架构中,存在数据复杂度高、缺乏敏捷性、不便于协作、数据和一致性可解释性低下等问题。这些挑战阻碍了企业迈向数据驱动型企业的道路,也难以实现快速响应业务需求。
在寻求最佳数据架构的过程中,Data Fabric 和 Data Mesh 常常被关注到,这两者乍一看很相似,但是这两种方法存在着根本差异。
Data Fabric 是一种设计概念和架构方法,旨在解决数据管理的复杂性,最大限度地减少对数据使用者的干扰,确保任何位置、任何平台上的任何数据都可以被有效触达使用。Data Fabric 本质上是一种元数据驱动的方式,兼有 AL/ML 驱动的增强,和包含云原生、微服务、API 驱动等在内的强大的基础设施,用于链接不同的数据工具集。在日益异构化的环境中,Data Fabric 的出现显得至关重要。因为此时此刻,数据多样性的问题在变得更加严重。
Data Mesh 在解决的问题和 Data Fabric 十分相似,也就是在异构数据环境中管理数据的难题。但二者的不同之处在于,Data Mesh 允许分布式团队在遵守共同的治理规定的前提下按照自己的方式管理数据,而 Data Fabric 是在分布式数据之上构建单个的虚拟管理层。Data Mesh 希望能纠正数据湖和数据仓库之间的不一致性。
再往上一层总结,Data Mesh 则侧重于组织变革,它关注人员和流程,而不是架构,而 Data Fabric 以技术为中心,它是一种架构方法,它以一种智能的方式处理数据和元数据的复杂性,并且可以很好地协同工作。二者并不冲突,甚至可以有效协作,你可以将它们当作框架而不是架构。
前面提到数据湖和数据仓库,其实在目前,如何为数据分析需求提供最佳数据存储一直是一个火热的话题,相关产品竞争激烈。数据仓库和数据湖一直是使用最广泛的大数据存储架构,近几年横空出世的湖仓一体,号称结合了数据湖的灵活性和数据仓库的数据管理便捷性,但截至目前,行业内的最佳实践偏少,营销众多。
数据湖 vs 数据仓库 vs 湖仓一体的讨论在很长一段时间内都会持续下去,选择哪一种架构,取决于你正在处理的数据类型、数据源以及数据使用方式。
我们希望找到最佳实践,供您参考。因此将于 7 月 31 日 -8 月 1 日举办的 QCon 全球软件开发大会(广州站)特别策划了「现代数据架构选型」专题,将湖仓一体、Flink 最新更新、Data Fabric、Data Mesh 的相关实践集结于此,希望对你的选型有帮助。
QCon 全球软件开发大会广州站日程已上线官网,50 技术实践案例首次对外公开分享,点击底部【阅读原文】一览专题详细演讲提纲。门票限时优惠即将结束,前沿案例分享不可错过。感兴趣的同学联系票务经理报名:15600537884(同微信)~