【数据挖掘】数据挖掘总结 ( 拉普拉斯修正 | 贝叶斯分类器示例2 ) ★

2023-03-28 20:30:48 浏览数 (1)

文章目录

  • 一、 贝叶斯分类器分类的流程
  • 二、 拉普拉斯修正
  • 三、 贝叶斯分类器示例2

参考博客 :

  • 【数据挖掘】贝叶斯分类 ( 贝叶斯分类器 | 贝叶斯推断 | 逆向概率 | 贝叶斯公式 | 贝叶斯公式推导 | 使用贝叶斯公式求逆向概率 )
  • 【数据挖掘】贝叶斯公式应用 拼写纠正示例分析 ( 先验概率 | 似然概率 | 后验概率 )
  • 【数据挖掘】贝叶斯公式在垃圾邮件过滤中的应用 ( 先验概率 | 似然概率 | 后验概率 )
  • 【数据挖掘】朴素贝叶斯分类器 ( 多属性概率计算 | 朴素贝叶斯分类案例分析 )
  • 【数据挖掘】拉普拉斯修正 ( 判别模型 | 概率模型 | 贝叶斯分类 | 拉普拉斯修正 | 朴素贝叶斯分类应用场景 | 朴素贝叶斯优缺点 )
  • 【数据挖掘】贝叶斯信念网络 ( 马尔科夫假设 | 结构 | 有向无环图 | 参数 | 条件概率表 | 案例分析 )

一、 贝叶斯分类器分类的流程


已知条件 :

已知样本 : 已知若干个样本

未知样本 : 给定

1

个未知样本 , 其有

4

个属性组成向量

rm X

, 样本的分类有两种 ,

rm Y

rm N

; ( Yes / No )

分类步骤 :

计算两个概率 , 即

① 样本取值为

rm X

向量时 , 分类为

rm Y

的概率 , 公式为

rm P(Y|X) = cfrac{P(X | Y) P(Y)}{P(X)}

, 其中

rm P(X | Y) P(Y)

含义是 : 样本分类

rm Y

的概率

rm P(Y)

, 乘以 样本分类为

rm Y

前提下样本取值

rm X

时的概率

rm P(X | Y)

, 是

rm P(XY)

共同发生的概率 ;

② 样本取值为

rm X

向量时 , 分类为

rm N

的概率 , 公式为

rm P(N|X) = cfrac{P(X | N) P(N)}{P(X)}

, 其中

rm P(X | N) P(N)

含义是 : 样本分类为

rm N

的概率

rm P(N)

, 乘以 样本取值

rm N

时的概率

rm P(X | N)

, 是

rm P(XN)

共同发生的概率 ;

上述两个概率 , 哪个概率高 , 就将该样本分为哪个分类 ;

先验概率 :

rm P(Y)

,

rm P(N)

;

后验概率 :

rm P(X | Y)

,

rm P(X | N)

;

公式中每个元素的含义参考 【数据挖掘】贝叶斯分类 ( 贝叶斯分类器 | 贝叶斯推断 | 逆向概率 | 贝叶斯公式 | 贝叶斯公式推导 | 使用贝叶斯公式求逆向概率 )

上述两个公式

rm P(Y|X) = cfrac{P(X | Y) P(Y)}{P(X)}

rm P(N|X) = cfrac{P(X | N) P(N)}{P(X)}

, 分母都是

rm P(X)

, 只比较分子即可 , 其中先验概率

rm P(Y)

,

rm P(N)

很容易求得 , 重点是求两个后验概率

rm P(X | Y) P(Y)

,

rm P(X | N) P(N)

;

后验概率

rm P(X | Y)

求法 : 针对

rm X

向量中

4

个分量属性的取值 , 当样品类型是

rm Y

时 , 分量

1

取值为该分量属性时的概率 , 同理计算出

4

个分量属性对应的

4

个概率 , 最后将 四个概率相乘 ;

后验概率

rm P(X | Y)

再乘以先验概率

rm P(Y)

, 就是最终的 未知样本分类为

rm Y

类型的概率 ;

最终对比样本 , ① 未知样本分类为

rm Y

类型的概率 , ② 未知样本分类为

rm N

类型的概率 , 哪个概率大 , 就分类为哪个类型 ;

二、 拉普拉斯修正


在计算后验概率

rm P(X | Y)

时 , 需要计算出 当样品类型是

rm Y

时 ,

rm X

向量的 分量

1

取值为该分量属性时的概率 , 同理计算出

4

个分量属性对应的

4

个概率 , 最后将 四个概率相乘 ;

如果上述

4

个相乘的概率其中有一个是

0

, 那么最终结果肯定就是

0

, 这里需要避免这种情况 , 引入拉普拉斯修正 ;

直接上栗子 , 不扯公式 ;

如果计算时 ,

9

个样本是购买商品的 , 但年龄都大于

30

, 计算过程如下 ;

rm P( 年龄小于 30 | Y) = cfrac{0}{9}

拉普拉斯修正就是分子加

1

, 分母加上样本类型个数

2

; ( 样本有两个类型 ,

rm Y

购买商品 ,

rm N

不购买商品 ) ;

rm P( 年龄小于 30 | Y) = cfrac{0 1}{9 2} = cfrac{1}{11}

注意是所有的分量的概率都要进行拉普拉斯修正 , 不能只修正这一个 ;

具体的详细的公式以及理论查看 【数据挖掘】拉普拉斯修正 ( 判别模型 | 概率模型 | 贝叶斯分类 | 拉普拉斯修正 | 朴素贝叶斯分类应用场景 | 朴素贝叶斯优缺点 )

三、 贝叶斯分类器示例2


分类需求 : 根据 年龄 , 收入水平 , 级别 , 部门 , 人数 , 预测 " 年龄

31..35

, 收入

rm 41k..45k

,

rm systems

部门 " 的员工级别 ;

年龄

收入

级别

部门

人数

31..35 31..35 31..35

46 k . . 50 k rm 46k..50k 46k..50k

s e n i o r rm senior senior

s a l e s rm sales sales

30 30 30

26..30 26..30 26..30

26 k . . 30 k rm 26k..30k 26k..30k

j u n i o r rm junior junior

s a l e s rm sales sales

40 rm 40 40

31..35 31..35 31..35

31 k . . 35 k rm 31k..35k 31k..35k

j u n i o r rm junior junior

s a l e s rm sales sales

40 rm 40 40

21..25 21..25 21..25

46 k . . 50 k rm 46k..50k 46k..50k

j u n i o r rm junior junior

s y s t e m s rm systems systems

20 rm 20 20

31..35 31..35 31..35

66 k . . 70 k rm 66k..70k 66k..70k

s e n i o r rm senior senior

s y s t e m s rm systems systems

5 rm 5 5

26..30 26..30 26..30

46 k . . 50 k rm 46k..50k 46k..50k

j u n i o r rm junior junior

s y s t e m s rm systems systems

3 rm 3 3

41..45 41..45 41..45

66 k . . 45 k rm 66k..45k 66k..45k

s e n i o r rm senior senior

s y s t e m s rm systems systems

3 rm 3 3

36..40 36..40 36..40

46 k . . 50 k rm 46k..50k 46k..50k

s e n i o r rm senior senior

m a r k e t i n g rm marketing marketing

10 rm 10 10

31..35 31..35 31..35

41 k . . 45 k rm 41k..45k 41k..45k

j u n i o r rm junior junior

m a r k e t i n g rm marketing marketing

4 rm 4 4

46..50 46..50 46..50

36 k . . 40 k rm 36k..40k 36k..40k

s e n i o r rm senior senior

s e c r e t a r y rm secretary secretary

4 rm 4 4

26..30 26..30 26..30

26 k . . 30 k rm 26k..30k 26k..30k

j u n i o r rm junior junior

s e c r e t a r y rm secretary secretary

6 rm 6 6

31..35
rm 46k..50k
rm senior
rm sales
30
26..30
rm 26k..30k
rm junior
rm sales
rm 40
31..35
rm 31k..35k
rm junior
rm sales
rm 40
21..25
rm 46k..50k
rm junior
rm systems
rm 20
31..35
rm 66k..70k
rm senior
rm systems
rm 5
26..30
rm 46k..50k
rm junior
rm systems
rm 3
41..45
rm 66k..45k
rm senior
rm systems
rm 3
36..40
rm 46k..50k
rm senior
rm marketing
rm 10
31..35
rm 41k..45k
rm junior
rm marketing
rm 4
46..50
rm 36k..40k
rm senior
rm secretary
rm 4
26..30
rm 26k..30k
rm junior
rm secretary
rm 6

未知样本 取值

rm X

向量 为 " 年龄

31..35

, 收入

rm 41k..45k

,

rm systems

部门 " ;

未知样本 分类为

rm senior

( 高级 ) 类型的概率 :

rm P(senior | X) = cfrac{P(X|senior) P(senior)}{P(X)}

未知样本 分类为

rm junior

( 低级 ) 类型的概率 :

rm P(junior | X) = cfrac{P(X|junior) P(junior)}{P(X)}

上述两个概率的分母

rm P(X)

是常数 , 对比时可以忽略 , 只需要对比分子即可 ;

先验概率

rm P(senior) = cfrac{52}{165}

,

rm P(junior) = cfrac{113}{165}

,

52

个人是

rm senior

级别 ,

113

个人是

rm junior

级别 ;

后验概率

rm begin{array}{lcl} rm P(X|senior) &=& rm P( 年龄 31..35 | senior) times P( 收入 41k..45k | senior) times P( 部门 systems | senior ) \\ &=& cfrac{8}{52} times cfrac{35}{52} times cfrac{0}{52} \ end{array}

上述后验概率的结果为

rm 0

, 需要进行 拉普拉斯修正 , 上述式子中的三个概率分子都需要

1

, 分母都需要

2

, 分母是分类的个数 ,

rm senior

rm junior

两个分类 , 因此分母

2

;

拉普拉斯修正后的结果 :

rm begin{array}{lcl} rm P(X|senior) &=& rm cfrac{8 1}{52 2} times cfrac{35 1}{52 2} times cfrac{0 1}{52 2} \\ &=& cfrac{9}{54} times cfrac{36}{54} times cfrac{1}{54} \ end{array}

rm begin{array}{lcl} rm P(X|junior) &=& rm P( 年龄 31..35 | junior) times P( 收入 41k..45k | junior) times P( 部门 systems | junior) \\ &=& cfrac{23}{113} times cfrac{44}{113} times cfrac{4}{113} \ end{array}

未知样本 分类为

rm Y

类型的概率 分子 :

rm P(X|senior) P(senior) = cfrac{9}{54} times cfrac{36}{54} times cfrac{1}{54} times cfrac{52}{165} approx 0.0006

未知样本 分类为

rm N

类型的概率 分子 :

rm P(X|junior) P(junior) = cfrac{23}{113} times cfrac{44}{113} times cfrac{4}{113} times cfrac{113}{165} approx 0.0024

该样本分类 为

rm junior

, 是低级员工 ;

0 人点赞