数据中台:怎样评价数据资产的健康度?

2022-07-01 14:15:54 浏览数 (1)

数据资产是数据中台能力的根基,数据资产的健康度直接关系到中台建设的成败。那么在数据中台建设过程中究竟该如何评价数据资产建设及管理的情况呢?

一、数据资产管理过程常见问题

规范不统一,不同业务部门、不同开发人员发现习惯及意识不同,缺少统一的资产建设规范管控时,会带来命名不规范、建模不标准等问题。

数据复用低,元数据信息缺失、数据权限申请及审批流程断层、缺少高效易用的数据地图检索工具等会带来数仓人员开发了很多模型,但是业务并不知晓,重复造轮子。

考核难量化,对于数仓开发人员的绩效该如何量化评估呢?开发的模型数量?Bug数?还是数据质量问题的次数?

上传不下达,管理层及数据管理者希望不断降低数据的存储及计算成本,但由于成本核算粒度粗,无法将成本追溯到个人开发者。对于一线开发同学来说,短期内只要能最快完成业务需求即可,不会过多关注成本问题。对于低效高耗任务、冷数据缺乏主动治理意识。

二、数据资产健康度评价维度

1.规范性

库名、表名、指标及字段名是否符合约定的规范,例如:数仓分层、业务线、数据域、业务过程的组合,形成可以通过名称识别出数据的基本内容,而不是随心所欲的中英文混合、缩写,只有熟悉的人才可以知道表是干什么用的。资产建设过程中,可以将集团或者数据部门的规范抽象、集成到ETL过程,在系统层面做拦截,事前监测不规范的数据开发过程。可以参考阿里的dataphin。

2.丰富性

元数据覆盖度,包括资产技术元数据、业务元数据等信息,元数据越完善,才能为使用者提供更准确的决策依据,减少沟通成本,提升数据复用度。例如,表的责任人、业务描述信息、主题、层级、标签丰富度,字段说明及加工逻辑使用文档。技术元数据主要以数据开发人员使用为主,例如存储大小、小文件数量、使用热度(近X天使用人次)。除系统可以自动获取的外,其他相关元数据需要数据开发人员进行常态化的维护和更新。

3.完善度

数仓模型对业务的支撑和覆盖情况,完善度越高的数仓体系,业务获取和使用数据的成本就越低。即当业务需要数据时,已经相应的模型在哪里等着使用了,而不是再去对接业务沟通需求,排期开发。例如当管理者问数仓负责人,你们天天搞数仓建设,现在到底建设到什么程度了呢?有了完善度评价标准,可以量化数仓建设成熟度。一般来说,典型的数仓体系架构如下:

通过数据血缘及查询日志,可以对数据加工任务以及Adhoc查询进行统计分析。例如,在数据查询中,直接查询ODS的任务占比,占比越高说明有大量任务基于原始数据加工,中间模型DWD、DWT、DWA复用性很差。在技术上,直接查询底层表,查询扫描的数据量会越大,查询时间会越长,查询的资源消耗也越大,使用数据的人满意度会低。可以跨层引用率来衡量支持完善度,

DWD层:看 ODS层有多少表被DWT/DWA/APP 层引用,占所有活跃的ODS 层表比例。

DWT/DWA/APP层完善度:主要看汇总数据能直接满足多少查询需求,也就是用汇总层数据的查询比例,如果汇总数据无法满足需求,使用数据的人就必须使用明细数据,甚至是原始数据。汇总数据查询比例:DWT/DWA/APP层的查询占所有查询的比例。

跨层引用率越低越好,在数据中台模型设计规范中,一般不允许出现跨层引用,例如ODS层数据只能被 DWD引用。

4.复用度

复用度顾名思义,资产建设完成后,被不同业务或用户复用的情况,复用才会减少重复开。可以用引用系数作为数据中台资产复用度评价指标。引用系数越高,说明复用性越好。

引用系数:数据表被读取,产出下游模型的平均数量。例如一张DWD 层表被8张 DWS层表引用,这个表的引用系数就是8,把拥有下游的DWD 层表(有下游表的)引用系数取平均值,则为DWD 层的平均引用系数。

5.数据质量

数据质量问题产生的原因包括开发质量问题、集群稳定性、以及业务变更等多种问题,对于难以掌控的外部因素,只能是早发现早修复,数据资产的评价维度主要是监控体系的覆盖度、监控报警的处理率以及平均处理时长。

6.成本优化维度

数据成本的管控需要建立自上而下的成本分摊与评价体系,才能自下而上形成主动治理、优化的意识。例如考核每个数据开发人员待治理的任务数量以及治理成效。在成本优化中,最常关注的包括:资产存储、计算耗时/资源情况折算成成本。产生的小文件合并问题、冷热数据分级及归档、HDFS路径治理等。

7.数据安全

随着数据安全法以及个人信息保护法相继生效,手机号、身份证等绝密信息进入集群后是严禁明文传输的。数据开发在数据工作是否做到了对所有敏感信息的加密脱敏处理,也是资产健康度的评价维度之一。

三、资产健康分的计算逻辑及应用

健康分价值:从数仓总体到组织部门以及一线的数据开发者,形成统一的量化标准,客观评价资产建设工作。对于最最细粒度度的单个模型,可以直观展示模型健康度,责任到人,形成自上而下的考核以及自下而上的管理、治理动作。

健康分的计算逻辑:根据企业自身关注的重点,多方讨论确认评价指标以及权重系数。从单个表的健康分,汇总到个人数据开发者,以及数据团队的健康分。评价指标可以从前面章节中的七大维度进行筛选,主要可以包括:

  • 建设规范度:不符合建表或命名规范
  • 信息丰富度:元数据是否缺失,字段描述100%覆盖,主题、标签是否缺失等
  • 完善度:跨层引用比例
  • 复用度:模型引用系数
  • 数据质量:监控覆盖度、平均异常次数(延迟、数据错误)、平均处理时长
  • 成本优化:存储成本、计算成本、近X天使用情况、小文件数量
  • 数据安全:是否存在敏感字段未脱敏

四、基于健康分的资产管理工作台

除了数据工作者主动治理和规范的意识外,很多时候是缺少有效的工具。将资产健康分以及治理动作进行可视化展示,为数据工作者提供一站式工作台,不仅可以让大家养成规范化、周期性治理的习惯,也可以形成上下一致的资产管理及治理标准。工作台产品设计中的核心原则:客观评估现状,给出原因及可执行的动作,量化治理效果。即:每天上班打开工作台,知道自己数仓工作目前的定位及问题,如何去优化改善,做了一系列的动作后,效果如何了。

五、小结

利用资产健康分,量化资产建设及管理效果,可以做到自上而下的上传下达管理,也可以为一线数据工作者提供追踪、可执行的行动指南,相比较过去以统计为主的资产“大盘”,资产健康分可以更精细化的指导数据资产管理及治理工作。

0 人点赞