全文约3500字 阅读约5分钟
数据目录、数据清单、数据字典是良好数据治理活动的组成部分。它们被经常混用,但它们并不相同。
数据目录汇总了组织中数据资产的整体概况;数据清单详细说明了组织中可用的所有数据集,并显示所有相关元数据;数据字典定义了这些数据集的规则,指示了它们的格式、形状、schema。
这些数据秘籍的最大挑战是保持其最新。由于数据采集管道的速度和数量是天文数字,因此需要自动化和敏捷的协议来更新它们。
拥有这些数据秘籍并保持最新,可确保高效的数据交互,使企业团队能够简化其数据操作并获取有价值的数据洞察。
数据清单是执行数据清点/盘点的基础。一个高价值的数据安全平台,应该能够自动化维护一个持续更新的数据清单,其中包括敏感数据的分类分级。
目 录
1.数据治理中的三本秘籍
1)数据目录(Data Catalog)?
2)数据清单(Data Inventory)?
3)数据字典(Data Dictionary)?
2.为何需要这些数据秘籍
1)为何需要数据目录?
2)为何需要数据清单?
3)为何需要数据字典?
3.数据秘籍之间的区别
1)数据目录 vs. 数据清单
2)数据目录 vs. 数据字典
3)数据清单 vs. 数据字典
4.创建数据秘籍的关键因素
1)重点关注敏感数据
2)持续敏感数据发现
3)确保对半结构化数据进行分类分级和更新
01
数据治理中的三本秘籍
1)数据目录(Data Catalog)
数据目录是企业用来管理其数据的集中式元数据存储库。其中概述了企业数据资源的组织、使用、管理的信息。该目录支持数据工程、分析操作、科学的功能。
数据目录的目标是使数据管理变得简单有效,共享有关收集和存储在组织中的数据的知识和信息。它概述了各种管道中的数据流,并提供数据景观的鸟瞰图。
数据目录通常与它们所引用的数据集分开存储在数据仓库或数据湖中。
数据目录的建立,需要遵循以下五个步骤:
- 数据获取:首先确定哪些元数据是相关的,找到这些相关数据所在的位置和存储的形式,确定如何捕获它们。通过了解数据的形状、结构、语义,来发展数据目录的形状和结构。尽量自动更新数据目录,几乎所有的数据库和数据存储都有工具,可以帮助您以所需的形状和语义提取元数据。通过数据沿袭,了解数据的来源和去向,为数据用户提供上下文。数据目录应支持各种数据类型,包括表和流数据。
- 分配数据所有者:捕获数据后,组织必须分配对该数据的所有权。赋予某人确保数据和文档完整和准确的责任,并为需要额外信息的数据用户提供了一个联系人。最重要的数据所有者,是数据管理员和技术所有者。数据管理员管理和解决与业务相关的查询;而技术所有者负责解决技术问题。
- 建立数据文档:一次性对所有数据进行编目通常是不可行的,所以需要一种切合实际的方法。首先对最重要的数据进行编目,然后是第二重要的数据,以此类推。
- 定期更新数据目录:数据集是不断变化的,所以识别这些变化并更新数据目录至关重要。理想情况下,这个过程应该是自动化的。
- 优化数据交互:数据目录是一种工具,使企业团队能够有效地与企业的数据交互。了解这些团队的需求并优化相关的标准和规范,为优化数据交互铺平道路。如标准化所有内部数据库、schema、字段、数据沿袭的文档格式。
2)数据清单(Data Inventory)
数据清单是数据清点/盘点的成果。数据清单是集中化的元数据集合,它指示了组织收集和维护的所有数据集。该文档(或文档集合)精确定位每个数据集的位置及其包含的数据类型。
数据分析师使用数据清单来确定哪些数据可用以及如何访问它们。
数据管理员维护数据清单,并为每个数据集制定相关的数据访问策略。
数据清单的主要挑战是保持最新。最有效的方法是通过自动化方式持续更新数据清单。
数据清单的示例如下:
3)数据字典(Data Dictionary)
数据字典描述了如何命名和定义数据资产的信息。数据字典通常包含围绕数据资产、关系、有关来源和使用的元数据、数据schema等术语的集中定义。比如数据资产的名称、设置和其他重要属性。
数据字典示例。数据字典通常包含以下元素:
- 数据资产名称
- 格式类型
- 与其他数据实体和资产的关系
- 参考数据
- 数据质量规则
- 元素数据资产层级
- 数据存储位置
- 质量指标代码
- 业务规则(数据质量验证和schema对象)
- 实体关系图
有两种类型的数据字典:
- 静态数据字典:不绑定到任何特定的数据库,因此必须手动更新。但手动过程更新的延迟,会导致数据字典中的元数据不同步。
- 动态数据字典:会随着它们所链接的数据存储库的增长而自动更新。建议组织实施动态数据字典,以确保所有数据字典保持更新和准确。
数据字典的创建方法。大多数情况下,由计算机辅助软件工程创建的数据库管理系统和信息系统,都包含动态数据字典。团队可以使用这些字典作为创建数据字典的起点。如果您无法自动生成可机读的数据字典,则可以使用单源字典,例如电子表格中包含的字典。
02
为何需要这些数据秘籍
1)为何需要数据目录?
当您拥有跨多个数据字典且可供多个用户访问的数据时,最好有一个数据目录。数据目录将这些数据组织成简单、易于消化的形式,从而简化数据提取和处理。
数据目录有助于改进数据管理。它们提供组织中可用数据集的高层级类别信息,从而提供高层级洞察和分析。该资产使干系人能够有效地找到存储在不同位置的任何类型的相关数据集,例如数据湖、仓库和其他数据库。
数据目录可支持数据工程操作。数据目录通过跟踪数据schema变更,来支持数据工程操作,以促进数据管道中的转换和聚合。数据目录通过在发生变更时触发警报,来帮助数据工程师检查传入数据是否符合预期schema。
数据目录使组织能够有效跟踪数据资产,并使干系人能够快速轻松地找到相关数据集,同时适应不断变化的数据环境。
2)为何需要数据清单?
数据清单满足数据法规合规性。依据GDPR(欧洲通用数据保护条例)等数据治理法规,要求企业知道他们收集和存储的所有敏感数据的位置,这隐含要求了详细和最新的数据清单。这在收集个人身份信息(PII)时尤其重要。
数据清单提供了数据可见性。当组织拥有广泛的数据采集时,了解其所拥有的数据及其有用的原因是一项艰巨的任务。而数据清单可以成倍地简化此任务,因为它提供了组织拥有的数据及其位置的详细信息。数据清单为数据消费者提供了数据发现和访问的起点。数据清单也简化了数据跟踪,因为组织的数据现在本质上是可搜索的。
3)为何需要数据字典?
数据字典可以防止数据冗余和歧义。当企业拥有被许多用户访问的大量的定量数据时,数据字典是必不可少的,因为它可以防止数据冗余和歧义。如果使用得当,数据字典可以提高效率。虽然准备这份文件可能需要一些时间,但长期的结果是值得的。
数据字典有助于防止在项目中使用数据资产时出现不一致和冲突。
数据字典中的元数据,主要关注数据资产的业务属性。它通常促进业务干系人和技术用户之间的沟通,确保所有信息、内容、格式都满足要求。
数据字典可用于支持数据工程操作。数据字典与数据仓库、关系数据库、数据管理系统密切相关。
03
数据秘籍之间的区别
1)数据目录 vs. 数据清单
- 数据目录:提供了组织中所有可用数据的鸟瞰图以及在哪里可以找到这些数据。数据目录通过根据常规业务功能进行组织,例如了解潜在客户生成管道、管理采购和库存、跟踪客户消费习惯。虽然数据清单中的每个条目都是唯一的,但数据目录可以引用不同条目中的相同数据点。
- 数据清单:包含组织所有数据集的元数据(如每个数据点的位置和类型),使这些数据集本质上是可搜索的。它本质上是细粒度的,提供有关单个数据集的详细信息。数据清单中的每个条目都是唯一的。数据清单中包含的信息始终是唯一的,而一个数据集可能会出现在数据目录的多个条目中。因此,数据清单比数据目录更加细化和技术化。
2)数据目录 vs. 数据字典
- 数据目录:反映了组织中数据资产的整体概况。
- 数据字典:用于命名和定义数据资产,目的是防止数据冗余和歧义。
3)数据清单 vs. 数据字典
- 数据清单:详细说明了组织中可用的所有数据集,并显示所有相关元数据。
- 数据字典:定义了这些数据集的规则,指示了它们的正确格式、形状、schema。
04
创建数据秘籍的关键因素
创建数据目录、数据清单、数据字典是现代数据处理中的基本功能。然而,这些过程存在一些固有的常见缺陷,特别是在处理敏感数据和非结构化或半结构化数据时。此时,数据目录、数据清单、数据字典协同工作,共同构成了理解和保护这些数据的基础。
1)重点关注敏感数据
敏感数据应该被准确地标记、编目和清点,因为知道数据在哪里以及它有多敏感,可以采取进一步的数据保护措施。
组织应该分配对这些敏感数据的所有权,因为知道谁对数据负责会产生保护它的紧迫性。
限制对敏感数据的访问,并在数据目录中相应地更新使用和访问指南。
2)持续敏感数据发现
勾勒并实施协议,以不断发现组织数据结构中的敏感数据。如果企业不知道那里有敏感数据,就无法开始保护它。
3)确保对半结构化数据进行分类分级和更新
半结构化数据不适合明确定义的结构或schema。相反,它是通过标签进行组织的,这些标签允许对它们进行分组和组织。这些非关系或NoSQL数据类型通常难以捕获、分类分级、更新,但它们构成了数据治理的重要组成部分。
需要实施一些流程来识别和编目此种数据,以确保组织不会创建一个充满暗数据的湖泊。
(本篇完)