大型组织希望创建一个灵活的环境,以根据新的数据洞察力进行创新和快速响应。但与此同时,这些企业想要一些好的结构 数据质量,适合消费的数据,简化和加速数据访问。使用数据网格,这是一种分散的数据架构(收集、集成和分析来自断开连接的系统的数据),具有联合 数据治理 (专注于符合隐私要求的启用和访问)符合目标。本文将解释数据网格和数据治理如何交叉并探索各自的优势。
数据网格:一种去中心化的架构 去中心化架构构成了数据网格的核心。中心节点(上面的蓝色框)代表将数据提供给其他公司部门的域。将中心节点视为围绕特定上下文使用硬件设备或软件服务组合的业务知识领域。例如,人力资源 (HR) 可能有一个中心,而财务有不同的中心。
辐条连接网络中的中心节点,通过中心点引导数据流量进出节点,因此数据可以在多个网络中快速流动。例如,通过分支,HR 可以同时连接到各个部门,如财务、客户支持或任何其他部门。
链接、物理电缆或电线,或软件连接编织在辐条之间。因此,HR 可能仅将其数据链接到财务,而没有连接其他领域。
数据网格描述了中心、辐条和链路模型, 路由数据 通过辐条和多个链接在中心节点之间。这些链接提供了灵活性的数据网格选项。比如HR的spoke坏了,但是finance的连接很好,那么finance可以继续拿到hr的数据。
一个组织中的数据网格看起来与其他组织中的非常不同。建设取决于个别业务的需要。
为什么公司选择数据网格架构? 企业选择一个 数据网格 克服“集中和单一”数据平台的局限性,正如 扎马克·德哈尼,Thoughtworks 新兴技术总监。
像这样的技术 数据湖 仓库试图将所有数据整合到一个地方,但企业会发现数据卡在那里。
一家公司可能只有一个集中式数据存储库——通常是 IT 等团队——为公司中的其他所有人提供数据。由于瓶颈,这会减慢数据访问速度。例如,财务部门的数据访问请求已经花了几天时间才获得 HR 隐私批准,然后可能会在 IT 部门的一两个人的收件箱中再存放几天。
相反,数据网格将数据控制权交给为该数据提供服务的每个域。域中的主题专家 (SME) 控制这些数据的组织、管理和交付方式。
通过域数据管理产生的灵活的联合技术使组织 三大核心优势:
简单性: 整个组织的用户都可以自助访问他们需要的数据。他们可以即时查找数据并与之交互 独立地, 无需通过部门看门人。 可扩展性: 数据网格将数据分布在不同的组织域中,以便他们可以控制该数据。如果核心业务希望扩大或缩减其业务部门,它可以在继续提供对其他领域的访问的同时快速完成。 可靠的远程连接: 数据网格连接和集成来自各种独立系统的数据。如果链路或分支出现故障,其灵活的网络可以重新路由数据请求。
单独使用数据网格的缺点 没有任何数据治理的数据网格面临两个缺点:
复杂性: 虽然用户可以从任何域快速获取数据,但从多个域获取数据会变得相当复杂。用户发现每个人或团队都有一个独特的系统或流程来允许访问他们的数据。
例如,HR 可能要求用户使用 JavaScript 查询数据,而财务只响应在 Visual Basic 中形成的数据查询。
想象一下,如果分布在整个企业中的每个部门都有一组特定的编程语言或流程来获取数据。然后,通过将所有这些信息拼凑在一起来获得组合数据集,一个部门会很头疼。
低性能: 由于每个域都可以通过网格唯一地传输其数据,因此组合来自多个域的数据可能需要时间。 查询此数据将 受到与特定域的最慢连接的限制。
此外,个人或团队面临陡峭的技术学习曲线,以使他们的领域数据在他们的业务中可用。除非有人对组织的去中心化架构有深厚的专业知识,否则用户需要花时间弄清楚如何有效地获得组合数据集。数据网格的复杂性和低性能问题凸显了组织一致性的缺乏。
用数据产品的心态统一公司 为了解决复杂性和低性能问题,拥有数据网格的组织应该采用 数据产品心态。在这种方法中,每个域都扮演内部供应商的角色,负责它在网格中提供的精细数据,以及该服务如何满足其客户、其他业务部门或外部客户的需求。
因此,每个领域都定义了它的数据产品的作用、其他领域需要它的原因以及它的关键功能。然后,与域关联的团队或个人在内部数据市场中推广这些数据产品,确定何时发布它们,并支持其客户(其他域成员)。
域可以根据其生成的数据提供一种或多种产品,并安排发布产品的时间。结合内部数据产品构成外部客户从公司购买的商品或服务的基础。
领域调整他们的产品以更好地适应整个组织或放弃。健康的文化为多个领域寻找技术和系统共性以经济地开发其产品奠定了基础。
使用联合数据治理模型指导域 数据治理的作用是指导整个组织的数据产品创建和使用。如果没有数据治理,公司可能会因政治、复杂性增加和绩效下降而放缓。
例如,一组需要 JavaScript 编程语言进行数据访问,而另一组则需要 Ruby。其他领域想要简化和标准化,但必须就使用何种编程语言达成一致。联合数据治理平衡了组织的数据市场,帮助公司通过其数据产品实现运营目标。
在联合模型中,业务建立了一个“实践社区” 或数据架构师协会。该行会在每个领域至少包含一名代表,他们共同努力就标准达成一致,并推荐将其应用于数据产品的位置。
通常,核心小组或卓越中心 (CoE) 会主持围绕标准的讨论,并在出现冲突时介入。该公会在高层次上设计需求,以便整个公司的用户发现不同的数据产品可以互操作。
运行良好的联合数据治理框架执行以下操作:
通过简化所有权来驯服复杂性: 联合数据治理使拥有数据产品的个人或团队负责。此外,数据治理澄清了域之间的一般主题边界,使谁监督什么信息变得更加明确。 通过减少重复来减少延迟: 随着数据架构师协会走到一起,他们对不同领域创建的其他数据产品有了更深入的了解。因此,他们更有可能采用其他团队的工具或流程,而不是创建自己的工具或流程。 因此,这种数据治理可以避免重新发明轮子,并提高整个公司访问数据的效率。团队可以更好地了解他们的数据产品给组织带来了什么,并且可以更轻松地浏览和使用其他团队开发的产品。
结论 具有联合数据治理的数据网格平衡了专业知识、灵活性和速度,以及不同领域之间的数据产品互操作性。使用数据网格,对其主题最了解的人负责他们的数据。
今后,组织将继续 面临挑战 提供良好的联合数据治理以通过数据网格访问数据。随着公司通过裁员、重新分配或雇用员工来适应波动的经济,数据所有权变得棘手。但是,如果公司牢记其数据网格和联合数据治理之间的平衡,他们将更容易克服这些困难并蓬勃发展。