数据治理相关概念和方法

2022-12-12 19:04:30 浏览数 (1)

一、数据治理相关概念

(一)数据分类

数据分为:主数据、交易数据、参考数据、元数据和统计分析数据。

  1. 主数据(Master Data),关于业务实体的数据,如:人、地点、客户、产品等。主数据关注的是“人”和“物”,主数据管理(MDM)是数据治理领域一个专门的话题,其主要目的是对关键业务实体(如员工、客户、产品、供应商等)建立统一视图,让客观世界里本是同一个人或物,在数据世界里也能做到唯一识别,而不是在不同系统、不同业务中成为不同的人或物。
  2. 交易数据/事务数据(Transactional Data),描述业务运营过程中的内外事件或交易记录。如:销售订单、采购订单等。交易数据关注的是“事”,由于交易数据是BI分析的基础,因此往往在数据质量管理中重点关注。
  3. 参考数据(Reference Data),用于将其他数据进行分类或目录整编的数据,规定参考数值是几个允许值之一。如:客户等级。参考数据是更细粒度的数据,是对“人”“事”“物”的某些属性进行规范性描述的,对参考数据的管理一般会与主数据管理同时进行,或与BI数据质量管理同时进行,因为指标维度和维值直接影响到BI数据质量。
  4. 元数据(Meta Data),描述数据的数据,帮助理解、获取、使用数据,分为技术元数据、业务元数据等。元数据本质是为数据提供描述,所以任何数据都有元数据。数据治理领域的元数据,更多是指BI、数据仓库这个范畴内的元数据。
  5. 统计分析数据(Analytical Data),对业务进行统计分析的指标。目前BI系统建设的主要作用就是做各种指标和报表的计算和展示。指标往往是数据治理的重点,指标的数据流分析、指标数值的波动性、平衡性监控,几乎是各个企业做数据治理的必备应用。

(二)数据治理

《DAMA 数据管理知识体系指南》一书给出的定义:数据治理是对数据资产管理行使权力和控制的活动集合(规划、监控和执行)。数据治理职能指导其他数据管理职能如何执行。

从理论上来讲数据治理主要是三个目的:保证数据的可用性、数据质量和数据安全。

二、数据治理的方法

谁负责数据治理?治理或者管控对象是什么?技术工具有哪些?

(一)组织架构

首先来谈谁负责数据治理,也就是组织架构。

从理论和国外实践来看,大型企业会建立企业级数据治理委员会,业务部门领导、IT部门领导共同参与。在企业级之下,还可以有部门级、项目级的委员会,负责某些局部的数据治理,在最基层面向某一个业务领域应该有相应的数据管理专员(Data Steward)。

(二)治理/管控对象

1、治理内容

从宏观到微观,数据的形态体现为数据架构、数据标准和数据质量标准。

数据架构,包括了数据模型(概念模型、逻辑模型)以及数据的流转关系,一般在企业级和系统级会谈数据架构,主要对企业数据的分类、分布和流转进行规划、设计,确保新建系统、新建应用能够与现有系统保持一致和融合,避免产生信息孤岛,或者带来重复不必要的数据集成、数据转换。

数据标准,包括了数据项、参考数据、指标等不同形式的标准。举例来说,“客户类型”是一个数据项,应该有统一的业务含义,将客户归类为大客户、一般客户的规则是什么,数据项的取值是几位长度,有哪些有效值(如01,02,03)等。是,标准定义出来之后,执行的情况怎么样?是否真正落实到IT系统了?

数据质量标准,包括数据质量规则以及稽核模型(即规则的组合应用)。数据质量规则一般会关注及时性、准确性、完整性、一致性、唯一性等,展开来谈还有许多内容,有的专家整理出12个数据质量维度,有定性的也有定量的。

IT部门应该牵头制定并且定期更新企业级的数据架构、数据标准和数据质量标准,作为新建系统和应用的指导约束。值得注意的是,在标准制定的过程中,要避免IT部门的闭门造车,一定要让业务部门充分参与进来。

2、过程管控

信息系统建设过程。数据质量不佳主要原因之一是在信息系统建设的过程中忽视了对数据的管控,这就会造成数据的设计与需求不一致,开发与设计不一致,对数据质量要求考虑缺失,不同系统对数据的定义和技术实现不一致等等诸多问题。等待系统上线后再去解决这些问题,亡羊补牢,消耗资源。

在信息化早期阶段ERP、CRM等操作型系统的建设是以功能和流程为中心,而后期BI、数据仓库、大数据平台等数据分析平台的建设是以数据为中心的,这就注定一些传统方式需要改变,应该更加注重对数据架构、数据标准、数据质量的管控,更加关注数据的生命周期,否则数据分析平台建设成功的概率不高。

(三)技术工具

元数据、主数据、数据质量是主要的技术手段。如果前面所说的组织架构、治理内容、过程管控等管理机制、技术标准不到位,仅仅上一套软件工具,起不到任何效果。以上软件工具的作用又是什么呢?核心作用在于知识的固化和提高数据治理人员的工作效率。

比如,需要手工编写程序收集的元数据,工具帮你自动获取;需要人工识别或编写代码实现的数据质量检查,工具帮你自动识别问题;用文档管理的数据字典,工具帮你在线管理;基于邮件和线下的流程,工具帮你线上自动化。

除此之外,数据治理的软件工具与其他软件工具一样,没有什么神奇之处,没有数据治理人员的参与和数据治理工作的推进,软件也只是看上去很美。这也是为什么数据治理咨询服务一直有其市场,以及为什么国内大部分单纯数据治理软件项目未能达到预期目标。


免责声明:本公众号所发布的文章为本公众号原创,或者是在网络搜索到的优秀文章进行的编辑整理,文章版权归原作者所有,仅供读者朋友们学习、参考。对于分享的非原创文章,有些因为无法找到真正来源,如果标错来源或者对于文章中所使用的图片、连接等所包含但不限于软件、资料等,如有侵权,请直接联系后台,说明具体的文章,后台会尽快删除。给您带来的不便,深表歉意。


0 人点赞