文章目录
- 一、 数据挖掘引入
- 二、 数据挖掘简介
- 三、 数据挖掘 与 KDD ( Knowledge Discovery From Data ) 从数据到知识
- 四、 数据挖掘中的数据源
- 五、 数据挖掘中的特点
一、 数据挖掘引入
1 . 数据过载问题 :
① 海量数据 : 自动化的数据收集工具 和 成熟的数据库技术 , 积累了海量数据 ;
② 数据处理瓶颈 : 需要在 数据库 , 数据仓库 , 或其它信息介质中处理海量数据 ;
我们被数据淹死了 , 但是渴望知识 ; 数据太多并没有用 , 需要将 有用的知识 和 无用的信息 分辨出来 ;
2 . 解决方案 :
① 数据仓库技术 : 数据仓库技术 和 在线分析处理技术 ;
② 数据挖掘技术 : 从海量数据中 , 挖掘感兴趣的知识 ;
二、 数据挖掘简介
1 . 数据挖掘 ( Data mining ) : 其本质目的是将数据转换成知识 ; 从大量数据中 , 提取出感兴趣的 模式 ( Patterns ) 或 知识 ( Knowledge ) ;
2 . 数据挖掘 的代名词 :
① KDD ( 从数据到知识 ) : Knowledge Discovery From Data
② 知识抽取 : Knowledge Extraction ;
③ 数据 / 模式分析 : Data / Pattern Analysis ;
④ 信息收获 : Information Harvesting ;
⑤ 商务智能 : Business Intelligence
与数据挖掘类似的技术还有 模式识别 , 机器学习等 ;
3 . 查询处理 与 数据挖掘 :
① 数据库查询操作 : 在数据库中使用 SQL 语句查询 , 不属于数据挖掘范畴 , 这属于查询处理范畴 ;
② 查询处理 与 数据挖掘 区别 : 数据挖掘的 知识预先是不知道的 , 挖掘出来的知识准确性也不知道 , 数据库查询出来的都是可预见的 , 结果是精确的 ;
三、 数据挖掘 与 KDD ( Knowledge Discovery From Data ) 从数据到知识
数据挖掘可以看做 KDD 的一个步骤 ;
KDD 概念 : Knowledge Discovery From Data , 从数据到知识 ;
KDD 完整流程 : 第六个步骤就是 数据挖掘 , 数据挖掘大约占 KDD 的 1/4 工作量 ;
① 数据源 : 数据源的海量数据
② 数据继承 ( 过程 ) : 通过数据采集 , 从海量数据中采集目标数据 ;
③ 目标数据 : 产生目标数据 ;
④ 数据预处理 ( 过程 ) : 预处理目标数据 , 生成洁净数据 ;
⑤ 洁净数据 : 产生洁净数据 ;
⑥ 数据挖掘 ( 过程 ) : 使用数据挖掘 , 从洁净数据中发现模式 ;
⑦ 模式 : 得到模式 ;
⑧ 评估表示 ( 过程 ) : 评估表示 数据挖掘得到的模式 , 得到知识 ;
⑨ 知识 : 最终得到的知识 ;
实际上工作时的数据挖掘包括了整个 KDD 所有流程 ;
四、 数据挖掘中的数据源
任何数据都可以用于数据挖掘 , 音乐数据 , 图像数据 , 视频数据 , 文本数据等都可以被挖掘 ;
数据挖掘的算法本质是一样的 , 只是针对不同的数据 , 进行对应的修改 ;
五、 数据挖掘中的特点
1 . 用于挖掘的数数据源 必须 真实 :
① 存在的真实数据 : 数据挖掘处理的数据一般是存在的真实数据 , 不是专门收集的数据 ;
② 数据收集 : 该工作不属于数据挖掘范畴 , 属于统计任务 ;
2 . 数据必须海量 :
① 少量数据处理 : 少量数据使用统计方法分析 , 不必使用数据挖掘 ;
② 海量数据 : 处理海量数据时 , 才使用数据挖掘 , 涉及到 有效存储 , 快速访问 , 合理表示 等方面的问题 ;
3 . 数据挖掘的查询是随机的 :
① 要求不精确 : 查询灵活 , 没有精确的要求 ( 无法用 SQL 语句写出来 ) ;
② 结果正确性未知 : 查询出来结果也不知道是否准确 ;
4 . 未知结果 :
① 挖掘结果 : 数据挖掘 挖掘出的知识是未知的 , 目的是为了发掘潜在的知识 , 模式 ;
② 知识使用 : 数据挖掘出的知识只能在特定领域使用 , 如金融领域数据挖掘结果 , 只能在金融领域及相关领域使用 ;