前言
这篇文章是我对大三笔记的整理转载,之后在课本的不断复习过程中会不断把知识整理更新上来。
(其中有好多知识因为不是很重要,老师没细讲,所以还没深入剖析,会在之后对这些文章中的知识点不断剖析完善的,一般下面有"更新中......."则表示本章知识还未剖析完善........见谅)
更新中.......
数据仓库的三层数据结构
数据仓库的数据特征
- 状态数据与事件数据
- 当前数据与周期数据
- 数据仓库中的元数据
数据仓库的数据ETL过程
- ETL概念
数据ETL是用来实现异构数据源的数据集成,即完成数据的抓取/抽取(Capture/Extract)、清洗(Scrub or data cleansing)、转换(Transform)、装载与索引(Load and Index)等数据调和工作
- ETL过程前后数据的特征
- 数据的ETL过程描述
- 抽取(Capture/Extract)
- 清洗(Scrub/Cleanse)
- 转换(Transform)
- 加载和索引(Load/Index)
多维数据模型和星模式
- 多维数据模型及其相关概念
- 有关多维数据模型的几个概念:维、维类别、维属性、度量、粒度及分割等
- 关于数据综合级别与粒度的确定:一般把数据分成四个级别:早期细节级、当前细节级、轻度综合级、高度综合级
- 多维数据模型的物理实现
- 多维数据库(MDDB),其数据是存储在大量的多维数组中,而不是关系表中 ,与之相对应的是多维联机分析处理(MOLAP)
- 关系数据库是存储OLAP数据的另一种主要方式。与之对应的是关系联机分析处理(ROLAP)
- 多维建模技术简介
- 两种主流建模技术 :由Inmon提出的企业级数据仓库模型和由Kimball提出的多维模型 ;
- 基于关系数据库的多维数据建模,如星型,雪花和事实星座模式;
- 关于事实表、维表及键的设计
- 一个星模式的例子
数据挖掘的过程
数据挖掘的主要功能
- 概念描述
- 对某类对象的内涵进行描述,并概括这类对象的有关特征
- 分为特征性描述和区别性描述
- 关联分析
- 数据关联是数据中存在的一类重要的可被发现的知识,若两个或多个变量间存在着某种规律性,就称为关联
- 关联分析是从大量的数据中发现项集之间有趣的联系、相关关系或因果结构,以及项集的频繁模式
MBA(market basket analysis) 啤酒与尿布的故事 在数据分析行业,购物篮的商品相关性分析被称为“数据挖掘算法之王”
- 分类与预测
- 分类是数据挖掘中的一项非常重要的任务,目的是提出一个分类函数或者分类模型,能将数据库中的数据项映射到给定类别中的一个
- 预测是利用历史数据建立模型,再运用最新数据作为输入值,获得未来变化的趋势或者评估给定样本可能具有的属性值或值的范围
- 聚类分析
- 聚类是根据数据的不同特征,将其划分为不同的数据类
- 聚类和分类的区别如下:分类需要预先定义类别和训练样本,而聚类分析直接面向源数据,没有预先定义好的类别和训练样本
聚类分析建模原理:内部距离最小化和外部距离最大化
- 偏差分析
- 又称为比较分析,是对差异和极端特例的描述,揭示事物偏离常规的异常现象,其基本思想是寻找观测结构与参照值之间的有意义的差别。
- 信用卡欺诈检测
偏差检测示意
数据挖掘的常用方法
- 聚类分析
- 决策树
- 人工神经网络
- 粗糙集
- 关联规则挖掘
- 统计分析
数据仓库与数据挖掘的联系
- DW为DM提供了更好的、更广泛的数据源
- DW为DM提供了新的支持平台
- DW为更好地使用DM工具提供了方便
- DM为DW提供了更好的决策支持
- DM对DW的数据组织提出了更高的要求
- DM还为DW提供了广泛的技术支持
数据仓库与数据挖掘的区别
- DW是一种存储技术,它包含大量的历史数据、当前的详细数据以及综合数据,它能为不同的用户的不同决策提供所需的数据和信息。
- DM是从人工智能机器学习中发展起来的,它研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。
数据挖掘的应用领域
- 金融业
- 保险业
- 科学研究
- 市场营销
- 客户管理管理
- 其他领域
卡方检验
- 卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。
- 其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。
常用的数据挖掘工具
- SPSS
- SAS
- SQL Server
- Weka
- Matlab
- R语言
- Python