在数据治理工作中,经常听到元数据、主数据的概念,随着数据资产成为企业和国家的战略级资产,DAMA等机构进行的认证培训中,把主数据治理和元数据治理分成两个大的模块进行整理,今天想把这两个概念彻底掰扯清楚。
主数据
主数据(MD Master Data)百度百科定义:指系统间共享数据(例如,客户、供应商、账户和组织部门相关数据)。与记录业务活动,波动较大的交易数据相比,主数据(也称基准数据)变化缓慢。在正规的关系数据模型中,交易记录(例如,订单行项)可通过关键字(例如,订单头或发票编号和产品代码)调出主数据。比较晦涩难懂,总结成一句话就是和数仓模型建设中的维度信息模型比较相似,例如城市维度表、会员信息表、商品资源表、供应商信息表等。主数据管理和治理工作重点是要尽可能共享和复用,比如公司层面只有共用一套城市维度,这样数据统计分析或者产品端用户定位功能才能统一口径,如果都是上海,A部门城市ID是12,B部门城市ID是20,后期应用就非常混乱。
业务数据
有人也称之和交易数据,个人觉得叫业务数据更加通用,因为对于一些非电商类业务,可能没有交易流程,比如内容类产品的生成和消费关系。相比较主数据,业务数据体现的是业务实时变化的过程,例如单纯的会员信息表是主数据,而会员浏览的内容明细日志,或者交易订单明细则是业务数据。所以,业务数据是业务实体在业务流程当中的行为表现记录。在数据仓库维度建模理论当中,把数据模型分为维度表和事实表,事实表就是基于业务过程构建的对应的业务模型。
元数据
元数据是数据的数据,数据资产化管理中,除了模型的建设和开发外,还有一个非常重要的工作就是让模型被共享和复用。酒香也怕巷子深,数据开发人员辛苦开发的模型,如果只有自己知道,那何谈复用。怎么样才能让别人知道,那就是要清楚的描述,这个数据是干什么用的,怎么用。元数据体现数据的各类关系和属性,可从技术、业务、管理3个维度对元数据进行划分,从而帮助用户对整个系统内数据资产的质量和分布形成清晰直观的认知,并有助于持续地进行数据质量的提升以及问题的跟踪回溯。举个栗子,图书馆里有几万几十万本书,想要快速找到想借的,首先是通过图书索引工具(电脑),搜索书名后,找到书的相关信息,例如:作者,年份,简介等信息(判断是不是你想要的书),在XX图书馆50架03层,180.22.334(索书号),只有掌握了这些信息后,才能快速找到目标,这里书就是数仓中的一个模型,而检索信息对应的就是元数据。
所以,在数据资产治理工作中,主数据和业务数据治理,侧重于模型实体的建设和管理,比如模型数据覆盖度、数据质量、数据成本、建设规范等方面。而元数据治理,则聚焦于资产目录建设、资产元数据(技术、业务、管理)的丰富和完善,以及需要建立方便“检索”资产的数据地图产品。