文章目录
- 一、 贝叶斯分类器分类的流程
- 二、 拉普拉斯修正
- 三、 贝叶斯分类器示例2
参考博客 :
- 【数据挖掘】贝叶斯分类 ( 贝叶斯分类器 | 贝叶斯推断 | 逆向概率 | 贝叶斯公式 | 贝叶斯公式推导 | 使用贝叶斯公式求逆向概率 )
- 【数据挖掘】贝叶斯公式应用 拼写纠正示例分析 ( 先验概率 | 似然概率 | 后验概率 )
- 【数据挖掘】贝叶斯公式在垃圾邮件过滤中的应用 ( 先验概率 | 似然概率 | 后验概率 )
- 【数据挖掘】朴素贝叶斯分类器 ( 多属性概率计算 | 朴素贝叶斯分类案例分析 )
- 【数据挖掘】拉普拉斯修正 ( 判别模型 | 概率模型 | 贝叶斯分类 | 拉普拉斯修正 | 朴素贝叶斯分类应用场景 | 朴素贝叶斯优缺点 )
- 【数据挖掘】贝叶斯信念网络 ( 马尔科夫假设 | 结构 | 有向无环图 | 参数 | 条件概率表 | 案例分析 )
一、 贝叶斯分类器分类的流程
已知条件 :
已知样本 : 已知若干个样本
未知样本 : 给定
个未知样本 , 其有
个属性组成向量
, 样本的分类有两种 ,
和
; ( Yes / No )
分类步骤 :
计算两个概率 , 即
① 样本取值为
向量时 , 分类为
的概率 , 公式为
, 其中
含义是 : 样本分类
的概率
, 乘以 样本分类为
前提下样本取值
时的概率
, 是
共同发生的概率 ;
② 样本取值为
向量时 , 分类为
的概率 , 公式为
, 其中
含义是 : 样本分类为
的概率
, 乘以 样本取值
时的概率
, 是
共同发生的概率 ;
上述两个概率 , 哪个概率高 , 就将该样本分为哪个分类 ;
先验概率 :
,
;
后验概率 :
,
;
公式中每个元素的含义参考 【数据挖掘】贝叶斯分类 ( 贝叶斯分类器 | 贝叶斯推断 | 逆向概率 | 贝叶斯公式 | 贝叶斯公式推导 | 使用贝叶斯公式求逆向概率 )
上述两个公式
和
, 分母都是
, 只比较分子即可 , 其中先验概率
,
很容易求得 , 重点是求两个后验概率
,
;
后验概率
求法 : 针对
向量中
个分量属性的取值 , 当样品类型是
时 , 分量
取值为该分量属性时的概率 , 同理计算出
个分量属性对应的
个概率 , 最后将 四个概率相乘 ;
后验概率
再乘以先验概率
, 就是最终的 未知样本分类为
类型的概率 ;
最终对比样本 , ① 未知样本分类为
类型的概率 , ② 未知样本分类为
类型的概率 , 哪个概率大 , 就分类为哪个类型 ;
二、 拉普拉斯修正
在计算后验概率
时 , 需要计算出 当样品类型是
时 ,
向量的 分量
取值为该分量属性时的概率 , 同理计算出
个分量属性对应的
个概率 , 最后将 四个概率相乘 ;
如果上述
个相乘的概率其中有一个是
, 那么最终结果肯定就是
, 这里需要避免这种情况 , 引入拉普拉斯修正 ;
直接上栗子 , 不扯公式 ;
如果计算时 ,
个样本是购买商品的 , 但年龄都大于
, 计算过程如下 ;
拉普拉斯修正就是分子加
, 分母加上样本类型个数
; ( 样本有两个类型 ,
购买商品 ,
不购买商品 ) ;
注意是所有的分量的概率都要进行拉普拉斯修正 , 不能只修正这一个 ;
具体的详细的公式以及理论查看 【数据挖掘】拉普拉斯修正 ( 判别模型 | 概率模型 | 贝叶斯分类 | 拉普拉斯修正 | 朴素贝叶斯分类应用场景 | 朴素贝叶斯优缺点 )
三、 贝叶斯分类器示例2
分类需求 : 根据 年龄 , 收入水平 , 级别 , 部门 , 人数 , 预测 " 年龄
, 收入
,
部门 " 的员工级别 ;
年龄 | 收入 | 级别 | 部门 | 人数 |
---|---|---|---|---|
31..35 31..35 31..35 | 46 k . . 50 k rm 46k..50k 46k..50k | s e n i o r rm senior senior | s a l e s rm sales sales | 30 30 30 |
26..30 26..30 26..30 | 26 k . . 30 k rm 26k..30k 26k..30k | j u n i o r rm junior junior | s a l e s rm sales sales | 40 rm 40 40 |
31..35 31..35 31..35 | 31 k . . 35 k rm 31k..35k 31k..35k | j u n i o r rm junior junior | s a l e s rm sales sales | 40 rm 40 40 |
21..25 21..25 21..25 | 46 k . . 50 k rm 46k..50k 46k..50k | j u n i o r rm junior junior | s y s t e m s rm systems systems | 20 rm 20 20 |
31..35 31..35 31..35 | 66 k . . 70 k rm 66k..70k 66k..70k | s e n i o r rm senior senior | s y s t e m s rm systems systems | 5 rm 5 5 |
26..30 26..30 26..30 | 46 k . . 50 k rm 46k..50k 46k..50k | j u n i o r rm junior junior | s y s t e m s rm systems systems | 3 rm 3 3 |
41..45 41..45 41..45 | 66 k . . 45 k rm 66k..45k 66k..45k | s e n i o r rm senior senior | s y s t e m s rm systems systems | 3 rm 3 3 |
36..40 36..40 36..40 | 46 k . . 50 k rm 46k..50k 46k..50k | s e n i o r rm senior senior | m a r k e t i n g rm marketing marketing | 10 rm 10 10 |
31..35 31..35 31..35 | 41 k . . 45 k rm 41k..45k 41k..45k | j u n i o r rm junior junior | m a r k e t i n g rm marketing marketing | 4 rm 4 4 |
46..50 46..50 46..50 | 36 k . . 40 k rm 36k..40k 36k..40k | s e n i o r rm senior senior | s e c r e t a r y rm secretary secretary | 4 rm 4 4 |
26..30 26..30 26..30 | 26 k . . 30 k rm 26k..30k 26k..30k | j u n i o r rm junior junior | s e c r e t a r y rm secretary secretary | 6 rm 6 6 |
未知样本 取值
向量 为 " 年龄
, 收入
,
部门 " ;
未知样本 分类为
( 高级 ) 类型的概率 :
未知样本 分类为
( 低级 ) 类型的概率 :
上述两个概率的分母
是常数 , 对比时可以忽略 , 只需要对比分子即可 ;
先验概率
,
,
个人是
级别 ,
个人是
级别 ;
后验概率
①
上述后验概率的结果为
, 需要进行 拉普拉斯修正 , 上述式子中的三个概率分子都需要
, 分母都需要
, 分母是分类的个数 ,
和
两个分类 , 因此分母
;
拉普拉斯修正后的结果 :
②
未知样本 分类为
类型的概率 分子 :
未知样本 分类为
类型的概率 分子 :
该样本分类 为
, 是低级员工 ;