文章目录
- 一、 贝叶斯分类器
- 二、 贝叶斯分类器处理多属性数据集方案
参考博客 :
- 【数据挖掘】贝叶斯分类 ( 贝叶斯分类器 | 贝叶斯推断 | 逆向概率 | 贝叶斯公式 | 贝叶斯公式推导 | 使用贝叶斯公式求逆向概率 )
- 【数据挖掘】贝叶斯公式应用 拼写纠正示例分析 ( 先验概率 | 似然概率 | 后验概率 )
- 【数据挖掘】贝叶斯公式在垃圾邮件过滤中的应用 ( 先验概率 | 似然概率 | 后验概率 )
- 【数据挖掘】朴素贝叶斯分类器 ( 多属性概率计算 | 朴素贝叶斯分类案例分析 )
- 【数据挖掘】拉普拉斯修正 ( 判别模型 | 概率模型 | 贝叶斯分类 | 拉普拉斯修正 | 朴素贝叶斯分类应用场景 | 朴素贝叶斯优缺点 )
- 【数据挖掘】贝叶斯信念网络 ( 马尔科夫假设 | 结构 | 有向无环图 | 参数 | 条件概率表 | 案例分析 )
一、 贝叶斯分类器
1 . 贝叶斯分类器 :
① 原理 : 基于统计学方法贝叶斯 ( Bayes ) 理论 , 预测样本某个属性的分类概率 ;
② 性能分析 : 朴素贝叶斯 分类器 , 与 决策树 , 神经网络 分类器 性能基本相同 , 性能指标处于同一数量级 , 适合大数据处理 ;
2 . 贝叶斯分类器的类型 :
① 朴素贝叶斯分类器 : 样本属性都是独立的 ;
② 贝叶斯信念网络 : 样本属性间有依赖关系的情况 ;
3 . 正向概率 与 逆向概率 :
① 正向概率 : 盒子中有
个白球 ,
个黑球 , 摸出黑球的概率是
;
② 逆向概率 : 事先不知道盒子中白球和黑球的数量 , 任意摸出
个球 , 通过观察这些球的颜色 , 推测盒子中有多少白球 , 多少黑球 ;
4 . 贝叶斯公式 : 有两个事件 , 事件
, 和事件
;
公式 1
简写形式 :
公式 2
或
公式 3
① 事件
发生的概率 : 表示为
;
② 事件
发生的概率 : 表示为
;
③
两个事件同时发生的概率 : 表示为
;
④ 事件
发生时
发生的概率 : 表示为
;
⑤ 事件
发生时
发生的概率 : 表示为
;
二、 贝叶斯分类器处理多属性数据集方案
1 . 多属性特征 : 如果要处理的样本数据的特征有
个属性 , 其取值
组成了向量
;
2 . 后验概率 : 计算最终分类为
时 , 多个属性的取值为
向量的概率 , 即
3 . 朴素贝叶斯由来 : 朴素地认为这些属性之间不存在依赖关系 , 就可以使用乘法法则计算这些属性取值同时发生的概率 ;
4 . 计算单个分类概率 : 分类为
时
个属性每个取值取值概率 :
当最终分类为
时 , 第
个属性取值
的概率为
;
当最终分类为
时 , 第
个属性取值
的概率为
;
当最终分类为
时 , 第
个属性取值
的概率为
;
最终分类为
时 ,
个属性取值
向量的概率 :
5 . 多属性分类概率总结 : 分类为
时
个属性取值
向量的概率为 :
6 . 上述公式中的分类属性
计算方式 : 如果第
个属性的取值是离散的 , 即分类属性 , 那么通过以下公式计算 :
是分类为
类型的数据集样本个数 ;
是被分类成
类型的样本中 , 并且第
个值是
的样本个数 ;
7 . 样本分类 :
① 样本 : 给出未知属性类型样本 , 其
个已知的属性取值为
向量 ;
② 分类个数 : 其根据分类属性可能分为
类 ;
③ 分类 : 求其取值为
向量时 , 分类为
的概率 , 哪个概率最大 , 其被分为哪个
类型 , 表示为
④ 后验概率 : 多属性取值为
向量时 , 分类为
的概率进行比较 , 分母都是
, 是一个常数 , 可以不考虑这种情况 , 只比较
值的大小 ,
值最大的情况 , 就是分类的目标分类
, 也就是后验概率 ;