您的公司想要构建数据网格。伟大的!怎么办?这是一个快速入门指南,可帮助您入门 - 并防止您的数据基础设施变成热网格。
自 2010 年代初以来,微服务架构已被广泛的公司采用(想想:Uber、Netflix 和 Airbnb 等)作为当前的软件范例,引发了工程团队关于面向领域设计的利弊的讨论.
现在,在 2021 年,您将很难找到一位数据工程师,他的团队正在讨论是否要从单体架构迁移到分散的数据网格。
由 Thoughtworks 的 Zhamak Dehghani 开发的数据网格是一种数据平台架构,它通过利用领域驱动的自助式设计来拥抱企业中无处不在的数据。
随着公司越来越受数据驱动,数据网格非常适合现代数据组织的三个关键要素:
- 越来越多的数据被整个公司的利益相关者吸收和利用,而不是一个单独的“数据管理员”团队
- 随着团队寻求用他们的数据做越来越多的智能事情,数据管道的复杂性越来越高
- 标准化数据可观察性和可发现性层的兴起,以了解数据资产在其生命周期中的健康状况
数据网格的潜力既令人兴奋又令人生畏,就像之前的微服务架构一样,它激发了很多关于如何大规模操作数据的讨论。
与在一个中央数据湖中处理 ETL 的传统单体数据基础架构不同,数据网格支持分布式的、特定于域的数据消费者并查看“数据即产品”,每个域都处理自己的数据管道。数据网格的基础是可观察性和治理的标准化层,可确保数据始终可靠且值得信赖。图片由蒙特卡洛提供。 为了指导您的数据网格之旅,我们汇总了基本数据网格阅读清单:
基础
- 如何超越单片数据湖进入分布式数据网格——Zhamak Deghani 的原创作品是所有数据网格内容的圣杯。将本文视为您进入数据网格规范其余部分的门户,激发您对未来在实践中实施设计时围绕机遇、挑战和关键考虑因素进行讨论的兴趣。她的架构图对于理解数据网格如何针对集中式架构形成新的姿势至关重要。
- 数据网格原理和逻辑架构——Zhamak 第一篇文章的后续,本文详细介绍了如何实际大规模实施数据网格,并后退一步解释联邦治理如何以及为何对架构的关键成功。任何对数据网格的具体细节感兴趣的人都必须阅读。
- 数据网格应用——Mercateo Gruppe 数据分析和数据科学主管 Sven Balnojan 向读者介绍了数据团队如何通过从单一数据仓库迁移将 DevOps、“数据即产品”思维方式应用到他们的数据架构中和湖泊到数据网格。他还谈到了普通企业(在本例中为电子商务公司)如何进行这种迁移,以及如何适当地实现数据所有权和访问权的民主化。
补充阅读
- 什么是数据网格——以及如何不将其网格化——在 2020 年,一些客户向我和我的联合创始人提出了关于如何大规模实施数据网格架构以及数据网格是否有意义的问题为他们的团队。在本初学者指南中,我们将介绍一些关键注意事项,尤其是与设置网格以实现数据可观察性和可发现性的成功有关。
- 数据网格适合您的组织吗? – 在 Hyperight 关于该主题的最新消息中,他们采访了各种数据领导者和顾问,了解为什么(或为什么不)实施数据网格架构。TL;DR:如果您的团队已经在采用面向领域的数据所有权方法并在数据管理方面苦苦挣扎,那么数据网格可能是让您的组织更上一层楼的正确架构。一个关键点:倾向于自动化和 DataOps 的公司更有可能为没有成功的公司设立。
- 数据网格简介:分析数据管理中的范式转变(第 1 部分和第 2 部分)——将这两个视频视为 Zhamak 早期关于数据网格的写作的额外背景。在 Starburst Data 的 SuperNova 会议的这两次演讲中,Zhamak 更详细地介绍了她设计这种新范式的动机,以及一流的数据团队如何已经大规模应用数据网格(自动化)以提供更可靠、更可行的数据洞察他们的公司。
主要资源
- 实践中的数据网格:欧洲领先的时尚在线平台如何超越数据湖——Zalando 的数据工程师 Max Shultze 和 ThoughtWorks 顾问 Arif Wider 讨论时尚电子商务公司如何将他们的“数据沼泽”变成通过利用数据网格原则的领域驱动的、可操作的数据湖。对于那些认真考虑去中心化他们的数据架构和消除数据工程瓶颈(无论你是否要使用全网格)的人来说,这是必须关注的。
- Intuit 的数据网格战略 – Intuit 数据平台的首席架构师 Tristan Baker 讨论了 Intuit 决定实施数据网格架构的原因和方式,正如他所说,“减少混乱并提高生产力,以恢复让客户满意的业务。”根据 Tristan 的说法,关键挑战包括数据可发现性、数据可理解性和数据信任。通过将代码和数据组织为“数据产品”,Intuit 能够设定明确的数据责任、服务所有权和目标结果。
- Netflix 数据网格:可组合数据处理 - 在 Flink Forward 2020 的这段视频中,Netflix 数据架构总监 Justin Cunningham 讨论了他的团队如何构建数据网格架构来专门处理可组合数据处理。与其他演讲和文章不同,本次演讲深入探讨了他们如何应用数据网格框架来处理数据转换过程的一个元素——在 Netflix 系统之间移动数据。
- 此列表绝不是详尽无遗的,但它应该可以帮助您开始数据网格之旅。对于那些对构建数据网格或希望分享最佳实践感到好奇的人,可以考虑加入 Data Mesh Learning Slack 小组。
直到下一次——祝你数据网格魔法!