什么是数据仓库(Data Warehouse,DW)?
1991 年,数据仓库之父 Bill Inmon 在《Building the Data Warehouse》一书中,给出的定义:
“数据仓库一个面向主题的、集成的、稳定的、随时间变化的数据的集合,以用于支持管理决策过程。”
建立数据仓库的目的是帮助企业高层系统地组织、理解和使用数据,以便进行战略决策。
数据仓库系统的体系结构
源数据层
源数据是数据仓库系统的基础,是整个系统的数据源泉。
通常包括企业内部信息和外部信息。
但从企业原来已建立的数据库系统中提取,并不是原来数据的简单复制,而是经过了抽取、筛选、清理、转换等过程,有效集成到数据仓库。
内部数据
内部信息包括企业已建立的业务系统中的数据和各类文档资料。
外部信息
外部信息包括法律法规、市场信息和竞争对手的信息等。
数据存储与管理层
元数据
元数据是关于数据的数据,位于数据仓库的上层,用以描述数据仓库内数据的结构、位置和
建立方法。通过元数据进行数据仓库的管理和使用。
数据仓库
数据仓库中存放了企业的整体信息,而数据集市只存放了某个主题需要的的信息,其目的是
减少数据处理量。
数据集市
数据集市面向企业中的某个部门(或某个主题),是从数据仓库中划分出来的,这种划分可
以是逻辑上的,也可以是物理上的。
可以简单的理解为,数据集市限于某个选定的主题,只是数据仓库的一个子集。
OLAP服务层
OLAP 也叫联机分析处理(Online Analytical Processing),是对存储在数据仓库中的数据进行分析,能快速提供复杂数据查询和聚集,并帮助用户分析多维数据中的各维情况,多采用分区技术和并行技术。
关系型在线分析处理(ROLAP)
多维在线分析处理(MOLAP)
混合型在线分析处理(HOLAP)
前端分析工具层
前端工具主要包括
- 数据分析工具
- 报表工具
- 查询工具
- 数据挖掘工具
- 各种基于数据仓库或数据集市开发的应用。
各种数据分析和汇总报表、数据挖掘结果是为满足用户需求而产生的结果形式。