在数据量不断增长、数据生态系统复杂的时代,追踪数据从源头到目的地,及其经过的各种流程和系统的信息,对确保数据质量、合规性和决策来说至关重要。这些信息被称为数据血缘。
数据血缘既能回答“这些数据从哪里来,到哪里去”这样的哲学问题,也能回答“数据是如何进行加工转换的”这样的技术问题,帮助我们深入了解数据资产的可靠性、可信度。
数据血缘的重要性超出了传统的数据治理和合规性。它在智能数据分析、数据集成、数据质量管理和数据驱动决策方面发挥着至关重要的作用。了解数据血缘,能够使组织识别数据异常、解决问题、跟踪数据转换,并确保遵守 GDPR、CCPA 等法规。
数据血缘是企业最重要的数据资产之一,而且未来它将充当更加重要的角色。了解数据血缘的重要性不言而喻!
那么,数据血缘与其类似的概念之间有什么相似性和差异性,它们之间的关系是什么呢?
对不同来源中与数据血缘类似的概念进行分析,得到如下概念清单。
- 数据价值链。
- 数据链。
- 数据流。
- 数据集成架构。
- 信息价值链。
为了便于记忆,将它们放入图1中。
图1 与数据血缘类似的概念
▊ 数据血缘
几种DAMA出版物对数据血缘的定义有所不同。
《DAMA数据管理字典》(DAMA字典)将数据血缘描述为“从数据源到当前位置的路径,以及沿该路径对数据所做的改动”。第一版《DAMA-DMBOK》(DAMA-DMBOK1)将 “数据血缘/流”描述为数据集成架构的交付成果。这与DAMA-DMBOK1中的另一个描述相矛盾:“数据血缘和数据流都是数据集成架构这一概念的名称”。
与DAMA-DMBOK1相比,第二版《DAMA-DMBOK》(DAMA-DMBOK2)进一步阐述了数据血缘的概念。DAMA-DMBOK2提供了一个类似于DAMA字典中的定义。数据血缘是“它(数据)从源点移动到使用点的路径”。
在DAMA-DMBOK2中,术语数据血缘和数据流可互换使用。它将数据流定义为“一种数据血缘文档,它描述了数据如何在业务流程和系统中移动”。
综上,总结如下。
- 数据血缘描述了数据从源点到目的地的路径,以及数据在路径中进行的转换。
- 数据血缘、数据流和数据集成架构都是同一个概念。DAMA的出版物将数据血缘、数据流和数据集成架构视为同义词。
下面探讨数据价值链的概念。
▊ 数据价值链
数据价值链的定义只出现在DAMA字典中。
根据DAMA字典,“数据价值链是指支持企业业务价值链的跨流程数据流”。
数据价值链分析是指“识别哪些职能、流程、应用程序、组织和角色创建、读取、更新和删除了各类数据(主题域、实体、属性),用CRUD矩阵来表示,特别是当比较的数据内容项按价值链顺序排列时”。
术语“数据价值链”有几个显著的特点。
- 数据价值链与业务价值链的概念有关。
- 数据价值链描述了数据流,并将数据流与应用程序和业务组件,如流程、职能和角色等相关联。
- 数据价值可以在不同层级的数据模型上进行描述,如概念层(主题域)和逻辑层(实体和属性)。
▊ 数据链
DAMA-DMBOK2在数据生命周期和数据质量的语境中介绍了这个术语。
DAMA-DMBOK2强调“数据中存在有血缘(例如,从源点移动到使用点的路径,有时称为数据链)”。
由此,我们可以得出一个粗略的结论:数据链是数据血缘的同义词。
▊ 数据流
DAMA出版物将数据流视为数据血缘的同义词。下面我们来更深入地了解数据流的定义。
DAMA字典将数据流的概念描述为“系统、应用程序和数据集之间的数据传输”。它还介绍了数据流图的定义,是指“数据在逻辑流程或应用程序服务之间移动或被移动的可视化展示(即,一个流程的输出数据如何作为其他流程的输入数据)。本质上是一个流程模型,是对数据模型的补充”。
DAMA-DMBOK2将数据流设计定义为“用于跨数据库、应用程序、平台和网络(组件)间存储和处理的数据需求和主蓝图。数据流展示了数据在业务流程、位置、业务角色和技术组件间的流动”。
DAMA-DMBOK2将数据流与数据血缘相关联。“数据流是一类数据血缘文档,它描绘了数据如何在业务流程和系统间流动。端到端数据流展示了数据源自哪里、在何处存储和应用,以及数据在系统和流程内部及二者之间流动时如何转换。”
DAMA-DMBOK2定义了数据流的关键组成部分,数据流匹配并记录了以下内容与数据间的关系:
- 业务流程中的应用程序。
- 环境中的数据存储库或数据库。
- 网络段(可用于安全映射)。
- 业务角色,描述哪些角色负责创建、更新、使用和删除(CRUD)数据。
- 发生局部差异的位置15。
它还确定了记录数据流的层次。“数据流可以被记录在不同的细节层次上:主题域、业务实体,甚至是属性层次。”16这一观点可以解释为,数据流可以被记录在数据模型的概念层和逻辑层上。
简而言之,总结如下。
- 数据流和数据血缘是同义词。
- 通过对业务流程、角色与数据库、应用程序、网络等IT资产建立连接,展示概念层和逻辑层上的数据流。
▊ 数据集成架构
不同的DAMA出版物对这个术语给出了不同的定义。
根据DAMA字典,数据集成架构确定了“数据在应用程序和数据库之间如何流动”。
DAMA-DMBOK1给出的数据集成架构的定义更详细。“数据集成架构定义了数据如何从源头到末端流过所有系统。数据集成架构既是数据架构,也是应用架构。
因为它既包括数据库,也包括控制着数据流入、流出系统(数据库之间)的应用程序。数据血缘和数据流都是这个概念的名称。”
在DAMA字典中,你也可以找到对数据集成架构的分类。
数据集成架构可以分为数据库架构、主数据管理架构、数据仓库/商业智能架构和元数据架构。在有些企业中还包括:
- 受控域值的清单(代码集)。
- 主题域、实体和代码集的数据专员职责分配表。
同样值得注意的是,The Open Group的TOGAF®9.2中并没有使用数据集成架构的概念。
下面是对数据集成架构的简要总结。
- 根据DAMA的出版物,数据集成架构、数据流和数据血缘都是相同的概念。
- 数据集成架构描述了数据库、应用程序、系统、业务角色间的数据流及其职责。
▊ 信息价值链
DAMA字典将信息价值链定义为“一个将概念层和逻辑层数据模型与流程模型、应用程序、组织、角色和/或目标连接在一起的过程,以提供信息的语境、相关性和时间框架”。
DAMA-DMBOK1对其进行补充,信息价值链“使数据与业务流程和其他企业架构组件协同一致,包括相关的数据交付架构:数据库架构、数据集成架构、数据仓库/商业智能架构、文档内容架构和元数据架构”。
它还说明了该分析的主要工具:以“实体/职能、实体/组织和实体/角色、实体/应用程序”矩阵的形式,展示“数据、流程、业务、系统和技术之间的关系映射”。
奇怪的是,DAMA-DMBOK2并没有提供关于信息价值链概念的任何定义,书中也没有引用这个术语。
另一个有趣的事实是,虽然在DAMA-DMBOK1中将信息价值链视为数据架构的“主要交付成果”,但在主流的企业架构标准TOGAF®9.2中却找不到这个术语。
以下是关于信息价值链的简要概述。
- 它将概念层和逻辑层数据模型与(业务)流程、角色和各类企业架构关联起来,企业架构类型包括数据库、系统和应用程序、集成、DWH/BI、元数据等。
- 信息价值链是数据架构的交付成果之一。
- 主要工具是将数据实体与业务职能、角色、应用程序等进行匹配的矩阵。
通过分析这些术语,我们可以得出以下结论。
- 不同的行业参考指南对数据血缘的概念有不同的观点。
- 没有一致、明确的数据血缘定义。定义会随着时间的推移而变化。
- 其他几个概念的定义也与数据血缘类似。所有这些概念在不同的抽象层级上描述了数据的流动和转换。
- 这些概念名称经常互换使用。数据链被认为是数据血缘的同义词。数据流被定义为数据血缘的一种类型。数据血缘、数据流和数据集成架构是同一概念的不同名称。图2所示为这些概念关系的图形表示。这很复杂,不是吗?
图2 不同概念之间的关系概述
- 数据流动是在数据原点/源/起点到使用点/当前位置/终点/目标间的界限内进行描述。用来描述界限的词汇展示了数据血缘的一个重要特征:其范围或长度的相对性。这意味着记录数据血缘被限制在数据流的相对“起点”和“终点”之间。
- 数据血缘展示了数据在组织、业务流程和角色等业务组件间的流动。
- 数据血缘将数据移动与业务组件相匹配,如组织、业务、流程和角色。
所有这些概念形成了与数据血缘类似的概念的组件清单。