IDC 预测,到 2025 年,全球数据量将达到 1.75 ZB。较旧的单一数据管理方法已经难以管理和维护如此规模的高质量、安全且合规的数据。
数据网格(Data Mesh)架构是一种新的数据管理方法,它将数据去中心化与联合计算治理相结合。如果做得好,它可以提高数据质量、缩短上市时间并节省资金。但每个人都很难理解它所需要的改变。
什么样的组织可以从数据网格中受益?
虽然数据网格有很多好处,但并不是每个公司都需要在明天实现这一飞跃。
许多公司可以通过逐步改进当前的数据架构来改进其数据管理方法。例如,缺乏简单的数据发现、分类和质量指标的公司可以通过引入数据目录等组件而受益。
受益于数据网格的公司往往已经达到了使用简单数据仓库或数据湖可以管理的上限。他们通常会遇到数据网格要解决的核心问题之一:
·他们集中的数据工程团队是阻碍新项目快速启动的瓶颈;或者
·由于缺乏以数据产品为导向的思维, 数据管道和报告中的下游错误激增
对于拥有多个数据团队的大型组织来说,数据网格是应对速度和数据质量挑战的好方法。
转向数据网格架构的先决条件是什么?
公司应该对哪些数据域适合属于哪些团队有一个总体(尽管不一定完美)的了解。这些领域可能是面向使用的(例如,原始数据与可消费数据)或面向业务的(例如,营销、广告、会计等)。
转向数据网格还需要所有参与者的支持。这包括最高管理层的赞助,最重要的是,包括数据工程师、分析工程师、数据领域团队、业务分析师、分析用户和产品经理的支持。如果员工不接受新计划,可能会产生挫败感,并鼓励进一步使用“影子 IT”。
最后,数据网格转移需要可靠的训练计划。所有利益相关者都应该了解这种转变意味着什么,并接受有关新工具和流程的适当培训。特别是,应该对数据域团队进行有关数据所有权的含义以及如何使用新工具集管理数据管道的培训。
数据网格的技术组件有哪些?
我们关于数据网格架构组件的文章涉及数据网格的大多数架构元素。许多是您已经使用的工具和技术(例如对象存储、数据仓库、数据湖)。其他则是支持关键数据网格原则的新兴技术,例如将数据视为产品。
以下是在实现数据网格架构方面发挥显著作用的一些技术:
数据存储:用于结构化和非结构化数据存储的所有技术,包括对象存储、关系数据库、NoSQL 数据存储、数据仓库和数据湖。
供应和预留系统:由集中团队构建的自助服务管理层,用于供应堆栈以支持域所有者的数据管道。通常,这是托管在云提供商上的基础设施即代码 (IaC) 驱动的配置系统。
数据摄取和转换:像 dbt 这样的工具作为数据管道堆栈的一部分包含在内,用于构建、验证、测试和运行数据管道。
数据编排:专注于定义何时何地使用哪些数据集,或基于数据本身的条件的工具。
数据契约验证:一组用于定义数据接口、契约和版本并验证数据产品是否符合这些规范的工具。dbt 的模型合约功能就是一个例子。
数据目录:公司内所有数据源和数据产品的单一事实来源。数据目录支持发现数据、管理数据所有权以及使用数据沿袭跟踪整个公司的数据流。
一些公司在迁移到数据网格架构之前已经拥有数据目录。然而,它在数据网格中发挥着越来越重要的作用,使得跨异构数据域所有者的分布式网络的可发现性成为可能。
数据治理软件:实现数据治理策略的计算(自动)执行的软件,例如用于识别敏感数据的数据分类、数据质量规则和数据访问角色。该软件可能是数据目录的一部分或单独的平台。
自助报告工具: BI 软件,使通过数据目录找到数据和数据产品的团队能够运行自己的报告。
警报、监控和报告:能够设置数据警报的工具,例如在数据产品发生变化时向下游团队发出通知,帮助团队长期保持数据质量。监控和报告显示(除其他外)谁在使用数据目录、正在使用哪些数据(以及没有使用哪些数据)以及整个组织的安全与合规状态。
现有的平台和工具可以集成到数据网格中吗?
是的!正如您从上面的技术列表中看到的,数据网格利用了您多年来使用的许多基本数据存储和数据管道工具。
数据网格的区别在于谁有权访问这些工具以及如何跨域联合访问。例如,在更加单一的数据管理方法中,数据管道工具可能处于集中式数据工程团队的独家控制之下。在数据网格架构中,数据域团队可以独立操作自己的管道,同时也可以与其他团队横向集成。
数据网格有哪些经济效益?
构建数据网格架构需要时间和资源。但大多数公司发现这种努力是值得的。节省的资金来自多个领域:
·数据网格架构允许企业主控制自己的数据。这减少了业务部门和 IT 之间的摩擦,使团队能够在更短的时间内向市场提供更高质量的数据产品。
·数据目录和数据质量工具可帮助团队更轻松地找到高质量数据。这减少了追踪最新数据集和确定数据准确性所花费的时间。
·联合计算治理使大部分数据治理流程实现自动化,从而以更少的手动工作确保高质量且合规的数据。
·通过对公司内所有数据的整体了解,数据工程和治理团队可以消除冗余数据和流程。这意味着数据处理方面的支出减少。
例如,一家财富 500 强石油和天然气公司使用 dbt 进行数据转换,转向自助式分布式数据开发架构,以扩展其数据运营。该公司将花在监管报告上的时间减少了三周。通过使其数据工具民主化,它还将从事数据建模项目的人员数量增加了一倍。
结果是:它节省了 1000 万美元,并将其重新投入到业务中。
如何在数据网格架构中实现良好的数据治理?特别是,您如何处理敏感数据?
许多第一次听说数据网格的人担心领域驱动的数据所有权和自助数据平台如何与数据治理协同工作。
如何防止未经授权的人员查看个人身份信息 (PII)?当客户的数据可能分布在数十个团队的数据产品中时,您如何响应删除客户数据的请求?
换句话说,如何防止数据网格变成数据无政府状态?
这就是为什么联邦计算治理的数据网格原理如此重要。新数据产品必须加入集中式数据目录。注册后,数据治理自动化可以确保拥有团队对其数据应用适当的访问控制、分类和质量控制。
不可发现和治理的数据产品只是一个数据孤岛。
数据网格和 DataOps 之间有什么关系?
dbt Labs 的创始人 Tristan Handy 多次谈到了将敏捷软件开发实践引入数据项目的必要性。
软件工程界通过面向服务的架构、两个披萨团队和 API 合同等概念,在推动更高的质量和更快的交付时间方面取得了长足的进步。与此同时,数据仍然停滞不前。
DataOps是一个协作数据框架,可为数据项目带来敏捷开发方法。虽然它是与数据网格不同的概念,但它非常适合数据网格架构:
·DataOps强调“数据产品”思维——数据网格四大原则之一
·DataOps 鼓励利用自动化来提高交付质量和速度。自助数据平台和联合计算治理形式的自动化也是数据网格的核心组件。
·正如 Gartner 指出的那样,DataOps 从根本上来说是一种协作数据管理实践。数据网格鼓励通过数据发现、共享标准和框架以及由接口和合同监管的数据互连来进行协作。
采用数据网格的主要挑战是什么?
最后,您在此过程中会面临哪些挑战?
从业务角度来看,最大的挑战是数据网格需要文化转变。一些数据领域团队可能需要说服他们拥有自己的数据是前进的最佳途径。其他团队可能会争论谁应该拥有某些数据集的规范版本。数据工程团队可能会将向数据域所有权和自助服务的转变视为“失去控制”并进行抵制。
从技术上讲,第一个挑战是确保公司的大部分数据以可连接的格式提供。这可能涉及使用集中式数据仓库或可交叉查询的数据仓库存储的连接网络。开发自助服务层并设置供数十个或数百个团队使用的工具也需要大量的时间和人员投资。
缺乏强大的数据治理框架可能会在数据网格项目开始之前就对其造成破坏。如果没有适当的标准和流程来保护数据和确保合规性,从单一数据架构转向分布式数据架构可能会使安全性和合规性变得更加困难。
这些都不是不可克服的问题。解决这些问题的关键是进行公开讨论,并明确定义您期望向数据网格转变将带来的业务价值和投资回报。拥有支持和实现更有效协作/讨论的工具至关重要。
参与数据管理的每个人都需要时间来理解数据网格将如何改变他们的工作方式。本文解决了我们在该领域听到的一些最常见的恐惧和担忧。
当然,当您开始数据网格之旅时,您可能会遇到自己的特殊挑战。请记住保持接受反馈并确认您提出的解决方案将满足不同利益相关者的需求。让每个人都参与进来,可以增加您的数据网格之旅取得成功并获得回报的可能性。
原文链接:https://www.getdbt.com/blog/frequently-asked-questions-about-data-mesh