元数据是什么?举例告诉你哪种方式更适合元数据的录入

2020-07-28 14:26:03 浏览数 (1)

元数据,一个简单的定义是描述数据的数据。在企业中,无论哪里有数据,都有相应的元数据。只有存在完整而准确的元数据,我们才能更好地理解数据并充分利用数据的价值。为了让大家更好地了解什么是元数据,TaskCtl小编针对元数据的类型,举例说明什么是元数据。

元数据分类

元数据管理的范围将涵括数据产生、数据存储、数据加工和展现等各个环节的数据描述信息,帮助用户理解数据来龙去脉、关系及相关属性。按其描述对象的不同可以划分为三类元数据:技术元数据、业务元数据和管理元数据

这三种元数据的具体描述如下:

  • 技术元数据 技术元数据是描述数据系统中技术领域相关概念、关系和规则的数据,主要包括对数据结构、数据处理方面的特征描述,覆盖数据源接口、数据仓库与数据集市存储、ETL、OLAP、数据封装和前端展现等全部数据处理环节;
  • 业务元数据 业务元数据是描述数据系统中业务领域相关概念、关系和规则的数据,主要包括业务术语、信息分类、指标定义和业务规则等信息;
  • 管理元数据 管理元数据是描述数据系统中管理领域相关概念、关系和规则的数据,主要包括人员角色、岗位职责和管理流程等信息。

元数据管理的范围

元数据管理范围的不应仅仅局限于企业数据仓库、数据集市以及管理分类应用的数据,还应该将企业的业务系统的元数据纳入进来就行统一的管理,真正做到从源头对元数据进行管理,作为对数据的完整生命周期进行管理。

元数据应用

数据地图

数据地图展现是以拓扑图的形式对数据系统的各类数据实体、数据处理过程元数据进行分层次的图形化展现,并通过不同层次的图形展现粒度控制,满足开发、运维或者业务上不同应用场景的图形查询和辅助分析需要。

元数据分析

血缘分析

血缘分析(也称血统分析)是指从某一实体出发,往回追溯其处理过程,直到数据系统的数据源接口。对于不同类型的实体,其涉及的转换过程可能有不同类型,如:对于底层仓库实体,涉及的是ETL处理过程;而对于仓库汇总表,可能既涉及ETL处理过程,又涉及仓库汇总处理过程;而对于指标,则除了上面的处理过程,还涉及指标生成的处理过程。数据源接口实体由源系统提供,作为数据系统的数据输入,其它的数据实体都经过了一个或多个不同类型的处理过程。血缘分析正是提供了这样一种功能,可以让使用者根据需要了解不同的处理过程,每个处理过程具体做什么,需要什么样的输入,又产生什么样的输出。

影响分析

影响分析是指从某一实体出发,寻找依赖该实体的处理过程实体或其他实体。如果需要可以采用递归方式寻找所有的依赖过程实体或其他实体。该功能支持当某些实体发生变化或者需要修改时,评估实体影响范围。

实体关联分析

实体关联分析是从某一实体关联的其它实体和其参与的处理过程两个角度来查看具体数据的使用情况,形成一张实体和所参与处理过程的网络,从而进一步了解该实体的重要程度。本功能可以用来支撑需求变更影响评估的应用.

实体差异分析

实体差异分析是对元数据的不同实体进行检查,用图形和表格的形式展现它们之间的差异,包括名字、属性及数据血缘和对系统其他部分影响的差异等,在数据系统中存在许多类似的实体。这些实体(如数据表)可能只有名字上或者是在属性中存在微小的差异,甚至有部分属性名字都相同,但处于不同的应用中。由于各种原因,这些微小的差异直接影响了数据统计结果,数据系统需要清楚了解这些差异。本功能有助于进一步统一统计口径,评估近似实体的差异

指标一致性分析

指标一致性分析是指用图形化的方式来分析比较两个指标的数据流图是否一致,从而了解指标计算过程是否一致。该功能是指标血缘分析的一种具体应用。指标一致性分析可以帮助用户清楚地了解到将要比较的两个指标在经营分析数据流图中各阶段所涉及的数据对象和转换关系是否一致,帮助用户更好地了解指标的来龙去脉,清楚理解分布在不同部门且名称相同的指标之间的差异,从而提高用户对指标值的信任。

辅助应用优化

元数据对数据系统的数据、数据加工过程以及数据间的关系提供了准确的描述,利用血缘分析、影响分析和实体关联分析等元数据分析功能,可以识别与系统应用相关的技术资源,结合应用生命周期管理过程,辅助进行数据系统的应用优化.

辅助安全管理

企业数据平台所存储的数据和提供的各类分析应用,涉及到公司经营方面的各类敏感信息。因此在数据系统建设过程中,须采用全面的安全管理机制和措施来保障系统的数据安全。

数据系统安全管理模块负责数据系统的数据敏感度、客户隐私信息和各环节审计日志记录管理,对数据系统的数据访问和功能使用进行有效监控。为实现数据系统对敏感数据和客户隐私信息的访问控制,进一步实现权限细化,安全管理模块应以元数据为依据,由元数据管理模块提供敏感数据定义和客户隐私信息定义,辅助安全管理模块完成相关安全管控操作。

基于元数据的开发管理

数据系统项目开发的主要环节包括:需求分析、设计、开发、测试和上线。开发管理应用可以提供相应的功能,对以上各环节的工作流程、相关资源、规则约束、输入输出信息等提供管理和支持。

哪种方式更适合调度元数据录入?

一般开源的调度工具,原生支持采用form表单编辑调度元信息(如xxljob)或仅用xml文本承载(如ozzie、azkaban)

传统的商业调度软件(如control-m)为了支持海量的调度作业设计。采用模板化的excel文档批量编辑,再导入到调度系统中去。

TASKCTL除了支持(传统的图形拖拽作业节点) (作业属性表单)(模板化的excel批量编辑外),还支持(进阶的xml代码IDE编辑器)来实现海量作业设计。

功能点 编辑方式

excel电子表格

form表单

xml文本

TASKCTL独有 xml设计器

说明

输入验证

不支持

支持

不支持

支持

只有当excel导入时,才能验证输入信息的合法性

批量编辑

适用

不适用

适用

适用

批量调度通常是成百上千的作业,表单切换编辑会很痛苦

关系维护

不适用

适用

不适用

适用

excel的二维表结构,进行多个作业间的关系维护,不太直观

版本管理

不支持

支持

不支持

支持

脱机的excel只能人为进行文件的版本管理,容易出错

在线管理

不支持

支持

不支持

支持

excel编辑好后,需要导入到系统才能用

难易程度

简单

简单

较难

较难

xml代码具有一定语法特征,对于初学者,需要学习才能掌握

场景:系统初始化

适用

不适用

适用

适用

初始化系统时 ,会面临大量的作业信息编辑,采用表单方式,一个一个编辑会很麻烦

场景:增量信息维护

适用

适用

适用

适用

关键是能快速定位到增量信息的位置,通过文本查找都支持

场景:存量信息维护

不适用

适用

不适用

适用

特别是作业关系,如果采用excel来维护,将非常困难

总结

以上简要描述了元信息,以及通过示例解释如何使用元信息;希望能把元数据核心用途说明清楚,读者如有兴趣和疑问,欢迎大家可以和我们一起讨论交流...

0 人点赞