数据仓库与数据挖掘

2019-08-16 17:11:43 浏览数 (1)

数据仓库:面向主题的、集成的、非易变的、随时间变化的数据集合,用以支持决策

数据库为事务处理服务

数据仓库的基本特征包括以下几个方面:1)数据仓库面向主题。2)数据集成。3)数据相对稳定。4)数据反映历史变化。

数据集市是一种更小、更集中的数据仓库,解决数据仓库分析时间长,代价高的确定

数据集市不等于数据仓库,数据集市的简单合并不能成为数据仓库

(1)数据仓库数据模型

数据仓库和OLAP操作基于多维数据模型。

多维数据模型概念:度量属性(决策者关心的实际意义的数量)、维属性(观察数据的角度,如时间、地理等)、维的层次(年、月、日为时间维的层次,国家、地区、城市为地理维的层次)

多维数据:能够模式化为维属性和度量属性的数据统称为多维数据。多维数据构成了数据立方体

多维存储模型涉及两类表:维表和事实表,常用的多维模式为星型(一个事实表和多个维表组成)和雪花型(将维表组织为层次结构)模式。

数据仓库利用位图索引实现高性能访问。

(2)数据仓库的体系结构

数据仓库系统组成:数据仓库(DW)、仓库管理和分析工具(查询工具和挖掘工具)元数据是数据仓库的核心

三层客户机/服务器结构:数据仓库服务器、OLAP(联机分析服务器,包括关系OLAP(ROLAP),多维OLAP(MOLAP))和客户端。

(3)联机分析:切片、切块、钻取(向下钻取(取得细节数据),向上钻取(取得综合数据))和旋转(行列交换)等。

(4)数据挖掘

知识发现识别数据库中以前不知道的、新颖的、潜在有用的和最终可被理解的模式的非平凡过程数据挖掘是知识发现的核心工作和步骤。

知识发现(KDD)过程:数据准备、数据挖掘以及结果的解释和评估

可视化技术在数据挖掘过程中扮演了重要的作用。

数据挖掘常用的方法包括以下几个方面:

(1)关联规则挖掘(支持度:规则代表的事例占全体事例的比例;可信度:规则代表的事例占前提条件事例的比例)。

(2)分类。 (3)聚类分析。(4)预测。(5)优化

WEB挖掘:从WWW的资源和行为中抽取感兴趣的、有用的模式和隐含的信息。可分为三类:Web内容挖掘(从文档内容或文档描述中抽取知识的过程)、Web结构挖掘(从WWW的组织结构和链接关系中挖掘知识,发现重要页面,对页面排序)和Web使用记录挖掘(从Web的访问记录中抽取感兴趣的模式,提供个性化服务)

0 人点赞