文章目录
- 一、 数据挖掘算法组件化思想
- 二、 Apriori 算法 ( 关联分析算法 )
- 三、 K-means 算法 ( 聚类分析算法 )
- 四、 ID3 算法 ( 决策树算法 )
一、 数据挖掘算法组件化思想
0 . 数据挖掘算法的五个标准组件 :
- ① 模型或模式结构 : 决策树模型 , ( 信念 ) 贝叶斯模型 , 神经网络模型 等 ;
- ② 数据挖掘任务 : 概念描述 , 关联分析 , 分类 , 聚类 , 异常检测 , 趋势分析 等 ;
- ③ 评分函数 : 误差平方和 , 最大似然 , 准确率 等 ;
- ④ 搜索和优化方法 : 随机梯度下降 ;
- ⑤ 数据管理策略 : 数据存储 , 数据库相关 ;
1 . 模型或模式结构 : 通过 数据挖掘过程 得到知识 ; 是算法的输出格式 , 使用 模型 / 模式 将其表达出来, 如 : 线性回归模型 , 层次聚类模型 , 频繁序列模式 等 ;
2 . 数据挖掘任务分类 : 根据数据挖掘的目标 , 可以将数据挖掘任务分为以下几类 : ① 模式挖掘 , ② 描述建模 , ③ 预测建模 ;
① 模式挖掘 : 如 异常模式 , 频繁模式 ;
② 描述建模 : 如 聚类分析 ;
③ 预测建模 : 如 分类预测 , 趋势分析等 ;
3 . 评分函数 :
① 评分函数概念 : 评分函数用于评估 数据集 与 模型 ( 模式 ) 的拟合程度 , 值 越大 ( 越小 ) 越好 ;
② 评分函数作用 : 为 模型 ( 模式 ) 选出最合适的参数值 ;
4 . 搜索和优化算法作用 : 确定 模型 ( 模式 ) 以及其相关的 参数值 , 该模型 ( 模式 ) 使评分函数 达到某个最大 ( 最小 ) 值 ; 本质是帮助评分函数取得 最大 ( 最小 ) 值的方法 ;
① 结构确定求参数 ( 优化问题 ) : 模型 ( 模式 ) 结构确定后 , 目的就是为了确定参数值 , 针对固定的 模式 ( 模型 ) 结构 , 确定一组参数值 , 使评分函数最优 , 这是优化问题 ;
② 结构不确定 ( 搜索问题 ) : 搜索 既需要确定 模型 ( 模式 ) 的结构 , 又需要确定其参数值 , 这种类型是搜索问题 ;
5 . 数据管理策略 : 传统数据与大数据 ;
① 传统数据 ( 内存管理数据 ) : 传统的数据管理方法是将数据都放入内存中 , 少量数据 , 直接在内存中处理 , 不需要特别关注数据管理技术 ;
② 大数据 ( 集群管理数据 ) : 数据挖掘中的数据一般是 GB , TB 甚至 PB 级别的大数据 , 如果使用传统的内存算法处理这些数据 , 性能会很低 ;
二、 Apriori 算法 ( 关联分析算法 )
1 . 数据挖掘任务 : 关联模式挖掘 ;
2 . 模型 ( 模式 ) 结构 : 关联规则 , 类似于键值对结构 , 如购买啤酒的很大几率购买尿布 , 规则如下 : {啤酒} -> {尿布} ;
3 . 搜索空间 : 针对一个 “格” , 这个 “格” 是所有条目的可能组合 ; 如对购买的商品进行关联分析 , 那么搜索空间就是所有的商品 ;
4 . 搜索空间示例 : 有 4 种商品 A , B , C , D , 购买时有可能产生哪些组合呢 :
如果购买 1 个商品 , 有 C(4 , 1) 种组合 ; 如果购买 2 个商品 , 有 C(4 , 2) 种组合 ; 如果购买 3 个商品 , 有 C(4 , 3) 种组合 ; 如果购买 4 个商品 , 有 C(4 , 4) 种组合 ;
搜索空间就是上面的所有可能组合 ; 其中 C(4 , 2) 就是从 4 个元素的集合中任选 2 个的组合 , 参考离散数学的排列组合公式 ;
5 . 搜索空间概念 : 搜索和优化算法的搜索空间 , 如宽度优先遍历图时 , 先要有图的数据结构 , 这个图的数据结构就是搜索空间 ;
6 . 评分函数 : 支持度 , 可信度 ;
7 . 搜索和优化算法 : 宽度优先搜索 ;
8 . 数据管理策略 : 内存中管理数据 ;
三、 K-means 算法 ( 聚类分析算法 )
1 . 数据挖掘任务 : 聚类分析 ;
2 . 模型 ( 模式 ) 结构 : 聚类结果 , 将数据分组 , 若干组数据就是聚类分析的结果 ;
3 . 搜索空间 : 找到中心点 , 其它成员向其靠拢 , 以此为依据分组 ;
4 . 评分函数 : 误差平方和 ;
5 . 搜索优化方法 : 梯度下降方法 ;
6 . 数据管理策略 : 内存管理 ;
四、 ID3 算法 ( 决策树算法 )
1 . 数据挖掘任务 : 分类 ;
2 . 模型 ( 模式 ) 结构 : 决策树 , 树型结构 ;
3 . 搜索空间 : 决策树的所有可能的组合 ;
4 . 评分函数 : 准确率 , 分类结果越准确越好 ; 信息增益 ;
5 . 搜索优化方法 : 贪婪算法 , 确保当前步骤最优 , 但全局不一定最优 ;
6 . 数据管理策略 : 内存管理 ;