数据仓库入门

2021-01-19 18:03:00 浏览数 (1)

什么是数据仓库(Data Warehouse,DW)?

1991 年,数据仓库之父 Bill Inmon 在《Building the Data Warehouse》一书中,给出的定义:

“数据仓库一个面向主题的集成的稳定的随时间变化的数据的集合,以用于支持管理决策过程。”

建立数据仓库的目的是帮助企业高层系统地组织、理解和使用数据,以便进行战略决策。

数据仓库系统的体系结构

源数据层

源数据是数据仓库系统的基础,是整个系统的数据源泉。

通常包括企业内部信息和外部信息。

但从企业原来已建立的数据库系统中提取,并不是原来数据的简单复制,而是经过了抽取、筛选、清理、转换等过程,有效集成到数据仓库。

内部数据

内部信息包括企业已建立的业务系统中的数据和各类文档资料。

外部信息

外部信息包括法律法规、市场信息和竞争对手的信息等。

数据存储与管理层

元数据

元数据是关于数据的数据,位于数据仓库的上层,用以描述数据仓库内数据的结构、位置和

建立方法。通过元数据进行数据仓库的管理和使用。

数据仓库

数据仓库中存放了企业的整体信息,而数据集市只存放了某个主题需要的的信息,其目的是

减少数据处理量。

数据集市

数据集市面向企业中的某个部门(或某个主题),是从数据仓库中划分出来的,这种划分可

以是逻辑上的,也可以是物理上的。

可以简单的理解为,数据集市限于某个选定的主题,只是数据仓库的一个子集。

OLAP服务层

OLAP 也叫联机分析处理(Online Analytical Processing),是对存储在数据仓库中的数据进行分析,能快速提供复杂数据查询和聚集,并帮助用户分析多维数据中的各维情况,多采用分区技术和并行技术。

关系型在线分析处理(ROLAP)

多维在线分析处理(MOLAP)

混合型在线分析处理(HOLAP)

前端分析工具层

前端工具主要包括

  • 数据分析工具
  • 报表工具
  • 查询工具
  • 数据挖掘工具
  • 各种基于数据仓库或数据集市开发的应用。

各种数据分析和汇总报表、数据挖掘结果是为满足用户需求而产生的结果形式。

0 人点赞