【商务智能】数据仓库 ( 多维数据模型 | 多维数据分析 )

2023-03-29 13:29:31 浏览数 (1)

商务智能系列文章目录

【商务智能】数据预处理

【商务智能】数据仓库 ( 多维数据模型 | 多维数据分析 )


文章目录

  • 商务智能系列文章目录
  • 前言
  • 一、数据仓库 与 传统数据库 区别
  • 二、数据仓库系统体系结构
  • 三、多维数据模型
    • 1、星型模式
    • 2、雪片模式
    • 3、事实星座
  • 四、在线分析处理
  • 五、多维数据分析操作
  • 总结

前言

上一篇博客 【商务智能】数据预处理 中讲解了数据预处理操作 , 本篇博客介绍 数据仓库 , 数据仓库与传统数据库区别 , 多维数据模型 等 ;

一、数据仓库 与 传统数据库 区别

数据仓库特征 :

  • 面向主题
  • 集成
  • 不可更新
  • 随时间不断变化

数据仓库定义 : 数据仓库 是 用于 更好地 支持 企业 / 组织 决策分析处理 , 面向主题的 , 集成的 , 不可更新的 , 随时间不断变化的 数据集合 ;

传统的数据库 又称为 操作型数据库 , 如 Oracle , MySQL 等数据库 ;

操作型数据

分析型数据

数据粒度

细节的

综合的

数据时效

存储瞬间准确

过去的历史数据

是否只读

可更新

不可更新

需求可知

操作时实现知道需求

操作时事先不知道需求

生命周期

生命周期符合 SDLC

完全不同的生命周期

性能要求

性能要求高

性能要求低

操作大小

同一时刻操作一个单元的数据

同一时刻操作一个集合的数据

数据大小

单次操作数据量小

单次操作数据量大

驱动力量

事务驱动

分析驱动

具体用途

面向应用

面向分析

应用场景

支持日常操作

支持管理需求

数据内容

业务相关数据

决策相关数据

数据模型

关系,层次结构

关系, 多维数据结构

数据访问

随机读写操作

只有查询操作

工作负载

事物处理量大, 每个事物涉及记录很少

查询小, 每次需要查询大量数据

事务输出

很少

很大

系统停机

灾难性的系统宕机

延迟决策

二、数据仓库系统体系结构

数据仓库系统体系结构 :

  • 数据源
  • 集成工具
  • 数据仓库
  • 数据仓库服务器
  • OLAP 服务器
  • 元数据
  • 元数据管理工具
  • 数据集市
  • 前台分析工具

三、多维数据模型

多维数据模型 : 从 业务分析 角度 , 对数据进行 逻辑建模 的方法 ; 具有 简单 , 易于理解 , 方便查询 ;

多维数据模型 又称为 维度数据模型 , 由 维度表 和 事实表 构成 ;

1、星型模式

星型模式 : 中间有一个表 , 称为 事实表 , 周围有很多小表 , 这些表称为 维表 ;

星型模式 缺点 :

① 星型模式 不支持 维 的层结构 ;

  • 单一维表 : 每个 维 只有一个维表 , 所有的 维层属性 都放在一个表中 , 没有进行规范化 ;
  • 单一维表 示例 : 以上述 “商品” 事实表的 时间 对应的维表 为例 , 将 年 , 月 , 日 , 时 , 分 , 秒 等字段放在同一个 维表 中 , 时间维 可以变成 多个维表 , 如只包含 年月日的维表 , 只包含 年 月 的维表 等 ;

② 数据冗余 :

  • 数据冗余 : 每个 维表 都要表示所有的层 , 每个层有自己的属性 , 有很多数据冗余 ;
  • 数据冗余 示例 : 上述 时间维表 中每个商品 , 都要存储完整的 年 , 月 , 日 , 时 , 分 , 秒 数据 , 实际上商品的 年 , 月 , 等数据 , 很多商品都是相同的 , 只记录一次即可 , 不同所有的商品都记录年月 信息 , 因此产生了大量的冗余数据 ;

③ 不同维层属性名相同查询问题 :

  • 不同维层 , 有相同的属性 , 只能使用 换名 方式进行查询 ;
  • 不同维层 相同属性示例 : 如 商店 事实表中 , 城市 , 省份 , 国家 , 每个层级都有一个经理 Manager , 当 查询 Manager 属性时 , 直接将 城市经理 , 省份经理 , 国家经理 , 都查询出来了 , 无法查询单独一个级别的经理信息 ;

2、雪片模式

对于 维层次 复杂的维

  • 为了 避免 冗余数据占用过多空间
  • 为了 支持 不同维层 相同属性 查询

使用多个维表 描述复杂的维 , 这样在 星型模型 的 星的角上 , 出现了分支 , 类似于雪花形状 , 因此这种变种的 星型模型 称为 “雪片模型” ;

雪片模型 优缺点 :

  • 雪片模型优点 : 雪片模型的维表是规范化的维表 , 雪片模型维表 易于维护 , 节省存储空间 ;
  • 雪片模型缺点 : 雪片模型 查询时 , 需要 进行较多的连接操作 , 影响系统性能 ;

3、事实星座

该模型 比 星型模式 , 雪片模型 更复杂 , 上述两个模型 , 只有一个事实表 , 但是 在事实星座模型中 , 有多个事实表 , 两个事实表 , 可能公用一些维表 ;

四、在线分析处理

在线分析处理 : 一类软件技术 , 分析人员 , 管理人员 利用该技术 , 从 多种视角 , 通过 快速 , 一致 , 交互 的访问数据 , 达到 对数据洞察 ;

五、多维数据分析操作

多维数据分析操作 :

切片 : 在 数据方体 某一维 , 选定一个 维成员 ;

切块 : 在 数据方体 某一维 , 选定 某个区间的 维成员 ;

旋转 : 改变 数据方体 维次序 ;

下钻 : 分析过程中 , 用户需要从 更多维 或者 某个维更细层次上 观察数据 , 前者 增加更多的维 , 后者 在现有维上钻取到更细一层的数据 ;

上卷 : 分析过程中 , 用户需要从 更少维 或者 某个维更粗层次上 观察数据 , 前者 减少一个维后分析 , 后者 上卷到现有的某个维的更高层次进行分析 ;


总结

本博客中从各个角度分析了 数据仓库 与 数据块 的区别 , 简要介绍了数据仓库体系结构 , 多维数据模型的三种模型结构 , 以及在多维数据模型中的数据分析操作 ;

0 人点赞