【数据挖掘】数据挖掘总结 ( 贝叶斯分类器示例 ) ★

2023-03-28 20:30:29 浏览数 (1)

文章目录

  • 一、 贝叶斯分类器分类的流程
  • 二、 贝叶斯分类器分类示例 1

参考博客 :

  • 【数据挖掘】贝叶斯分类 ( 贝叶斯分类器 | 贝叶斯推断 | 逆向概率 | 贝叶斯公式 | 贝叶斯公式推导 | 使用贝叶斯公式求逆向概率 )
  • 【数据挖掘】贝叶斯公式应用 拼写纠正示例分析 ( 先验概率 | 似然概率 | 后验概率 )
  • 【数据挖掘】贝叶斯公式在垃圾邮件过滤中的应用 ( 先验概率 | 似然概率 | 后验概率 )
  • 【数据挖掘】朴素贝叶斯分类器 ( 多属性概率计算 | 朴素贝叶斯分类案例分析 )
  • 【数据挖掘】拉普拉斯修正 ( 判别模型 | 概率模型 | 贝叶斯分类 | 拉普拉斯修正 | 朴素贝叶斯分类应用场景 | 朴素贝叶斯优缺点 )
  • 【数据挖掘】贝叶斯信念网络 ( 马尔科夫假设 | 结构 | 有向无环图 | 参数 | 条件概率表 | 案例分析 )

一、 贝叶斯分类器分类的流程


已知条件 :

已知样本 : 已知若干个样本

未知样本 : 给定

1

个未知样本 , 其有

4

个属性组成向量

rm X

, 样本的分类有两种 ,

rm Y

rm N

; ( Yes / No )

分类步骤 :

计算两个概率 , 即

① 样本取值为

rm X

向量时 , 分类为

rm Y

的概率 , 公式为

rm P(Y|X) = cfrac{P(X | Y) P(Y)}{P(X)}

, 其中

rm P(X | Y) P(Y)

含义是 : 样本分类

rm Y

的概率

rm P(Y)

, 乘以 样本分类为

rm Y

前提下样本取值

rm X

时的概率

rm P(X | Y)

, 是

rm P(XY)

共同发生的概率 ;

② 样本取值为

rm X

向量时 , 分类为

rm N

的概率 , 公式为

rm P(N|X) = cfrac{P(X | N) P(N)}{P(X)}

, 其中

rm P(X | N) P(N)

含义是 : 样本分类为

rm N

的概率

rm P(N)

, 乘以 样本取值

rm N

时的概率

rm P(X | N)

, 是

rm P(XN)

共同发生的概率 ;

上述两个概率 , 哪个概率高 , 就将该样本分为哪个分类 ;

先验概率 :

rm P(Y)

,

rm P(N)

;

后验概率 :

rm P(X | Y) P(Y)

,

rm P(X | N) P(N)

;

公式中每个元素的含义参考 【数据挖掘】贝叶斯分类 ( 贝叶斯分类器 | 贝叶斯推断 | 逆向概率 | 贝叶斯公式 | 贝叶斯公式推导 | 使用贝叶斯公式求逆向概率 )

上述两个公式

rm P(Y|X) = cfrac{P(X | Y) P(Y)}{P(X)}

rm P(N|X) = cfrac{P(X | N) P(N)}{P(X)}

, 分母都是

rm P(X)

, 只比较分子即可 , 其中先验概率

rm P(Y)

,

rm P(N)

很容易求得 , 重点是求两个后验概率

rm P(X | Y) P(Y)

,

rm P(X | N) P(N)

;

后验概率

rm P(X | Y)

求法 : 针对

rm X

向量中

4

个分量属性的取值 , 当样品类型是

rm Y

时 , 分量

1

取值为该分量属性时的概率 , 同理计算出

4

个分量属性对应的

4

个概率 , 最后将 四个概率相乘 ;

后验概率

rm P(X | Y)

再乘以先验概率

rm P(Y)

, 就是最终的 未知样本分类为

rm Y

类型的概率 ;

最终对比样本 , ① 未知样本分类为

rm Y

类型的概率 , ② 未知样本分类为

rm N

类型的概率 , 哪个概率大 , 就分类为哪个类型 ;

二、 贝叶斯分类器分类示例 1


分类需求 : 根据 年龄 , 收入水平 , 是否是学生 , 信用等级 , 预测 " 年龄小于 30 岁 , 收入中等 , 学生 , 信用等级一般 " 的用户是否会购买商品 ;

年龄

收入水平

是否是学生

信用等级

是否购买商品

小于 30 岁

高收入

不是

一般

不会 N rm N N

小于 30 岁

高收入

不是

很好

不会 N rm N N

31 ~ 39 岁

高收入

不是

一般

会 Y rm Y Y

40 岁以上

中等收入

不是

一般

会 Y rm Y Y

40 岁以上

低收入

一般

会 Y rm Y Y

40 岁以上

低收入

很好

不会 N rm N N

31 ~ 40 岁

低收入

不是

很好

会 Y rm Y Y

小于 30 岁

中等收入

不是

一般

不会 N rm N N

小于 30 岁

低收入

一般

会 Y rm Y Y

40 岁以上

中等收入

一般

会 Y rm Y Y

小于 30 岁

中等收入

很好

会 Y rm Y Y

31 ~ 39 岁

中等收入

不是

很好

会 Y rm Y Y

31 ~ 39 岁

高收入

一般

会 Y rm Y Y

40 岁以上

中等收入

不是

很好

不会 N rm N N

rm N

小于 30 岁高收入不是很好不会

rm N

31 ~ 39 岁高收入不是一般会

rm Y

40 岁以上中等收入不是一般会

rm Y

40 岁以上低收入是一般会

rm Y

40 岁以上低收入是很好不会

rm N

31 ~ 40 岁低收入不是很好会

rm Y

小于 30 岁中等收入不是一般不会

rm N

小于 30 岁低收入是一般会

rm Y

40 岁以上中等收入是一般会

rm Y

小于 30 岁中等收入是很好会

rm Y

31 ~ 39 岁中等收入不是很好会

rm Y

31 ~ 39 岁高收入是一般会

rm Y

40 岁以上中等收入不是很好不会

rm N

未知样本 取值

rm X

向量 为 " 年龄小于 30 岁 , 收入中等 , 学生 , 信用等级一般 " ;

未知样本 分类为

rm Y

类型的概率 :

rm P(Y | X) = cfrac{P(X|Y) P(Y)}{P(X)}

未知样本 分类为

rm N

类型的概率 :

rm P(N | X) = cfrac{P(X|N) P(N)}{P(X)}

上述两个概率的分母

rm P(X)

是常数 , 对比时可以忽略 , 只需要对比分子即可 ;

先验概率

rm P(Y) = cfrac{9}{14}

,

rm P(N) = cfrac{5}{14}

,

9

个人购买商品 ,

5

个人没有购买商品 ;

后验概率

rm begin{array}{lcl} rm P(X|Y) &=& rm P( 年龄小于 30 | Y) times P( 收入中等 | Y) times P( 是学生 | Y) times P( 信用等级一般 | Y) \\ &=& cfrac{2}{9} times cfrac{4}{9} times cfrac{6}{9} times cfrac{6}{9} \ end{array}

begin{array}{lcl} rm P(X|N) &=& rm P( 年龄小于 30 | N) times P( 收入中等 | N) times P( 是学生 | N) times P( 信用等级一般 | N) \\ &=& cfrac{3}{5} times cfrac{2}{5} times cfrac{1}{5} times cfrac{2}{5} \\ end{array}

未知样本 分类为

rm Y

类型的概率 分子 :

P(X|Y) P(Y) = cfrac{2}{9} times cfrac{4}{9} times cfrac{6}{9} times cfrac{6}{9} times cfrac{9}{14} approx 0.0282186948853616

未知样本 分类为

rm N

类型的概率 分子 :

P(X|N) P(N) = cfrac{3}{5} times cfrac{2}{5} times cfrac{1}{5} times frac{2}{5} times cfrac{5}{14} approx 0.0068571428571429

该样本分类 为

rm Y

, 会购买商品 ;

0 人点赞