【数据挖掘】贝叶斯分类 ( 贝叶斯分类器 | 贝叶斯推断 | 逆向概率 | 贝叶斯公式 | 贝叶斯公式推导

文章目录
I . 贝叶斯分类器
II . 贝叶斯推断 ( 逆向概率 )
III . 贝叶斯推断应用场景 ( 垃圾邮件过滤 )
IV . 贝叶斯方法由来
V . 贝叶斯方法
VI . 贝叶斯公式
VII . 贝叶斯公式 ③ 推导过程
VIII . 使用贝叶斯公式求逆向概率

I . 贝叶斯分类器

1 . 贝叶斯分类器 :

① 原理 : 基于统计学方法贝叶斯 ( Bayes ) 理论 , 预测样本某个属性的分类概率 ;

② 性能分析 : 朴素贝叶斯分类器 , 与决策树 , 神经网络分类器性能基本相同 , 性能指标处于同一数量级 , 适合大数据处理 ;

2 . 贝叶斯分类器的类型 :

① 朴素贝叶斯分类器 : 样本属性都是独立的 ;

② 贝叶斯信念网络 : 样本属性间有依赖关系的情况 ;

决策树 , 贝叶斯 , 神经网络都是机器学习的核心方法

II . 贝叶斯推断 ( 逆向概率 )

1 . 贝叶斯推断 : 是统计学方法 , 贝叶斯定理的应用 , 用于估算统计量的性质 ;

2 . 正向概率与逆向概率 :

① 正向概率 : 盒子中有

个白球 ,

个黑球 , 摸出黑球的概率是

rm cfrac{M}{N M}

;

② 逆向概率 : 事先不知道盒子中白球和黑球的数量 , 任意摸出

个球 , 通过观察这些球的颜色 , 推测盒子中有多少白球 , 多少黑球 ;

III . 贝叶斯推断应用场景 ( 垃圾邮件过滤 )

1 . 传统垃圾邮件过滤方法 :

① 关键词法 : 识别特定词语 , 识别 “发票” “培训” 等关键字 ;

② 检验码法 : 计算邮件中文本的校验码 , 与已知的垃圾邮件对比 ;

③ 效果 : 关键词法和校验码法对垃圾邮件的识别效果不好 , 容易规避 ;

④ 问题本质 : 垃圾邮件过滤是二元分类问题 , 针对每个邮件 , 都需要判定其是否是垃圾邮件 ,

2 . 贝叶斯推断过滤垃圾邮件 :

① 效果 : 准确性很高 , 并且没有误判 ;

② 原理 : 贝叶斯推断的垃圾邮件过滤器有学习能力 , 收到的邮件越多 , 训练集越大 , 判定越准确 ;

IV . 贝叶斯方法由来

1 . 贝叶斯方法由来 :

① 现实情况 : 现实世界本身的状况复杂 , 不确定性很大 , 人的观察能力也有限 ;

② 人的应对方案 : 多数情况下 , 只能根据观察到的结果 , 来估算实际的情况 ;

2 . 贝叶斯处理逆向概率问题示例 :

① 盒子白球黑球问题 : 从盒子中取出白球和黑球 , 不知道盒子中有多少白球和黑球 , 只能根据从盒子中取出球的情况 , 估算盒子中的白球和黑球数 ;

② 互联网垃圾邮件问题 : 互联网中发送邮件 , 有多少是正常邮件 , 有多少是垃圾邮件是不知道的 , 只能根据当前收到的垃圾邮件 , 反向估算实际情况 ;

V . 贝叶斯方法

贝叶斯方法 :

① 提出假设 : 给出样本属性的不同类型的猜测的属性值 , 如 : 邮件是否是垃圾邮件 , 是或者否 ;

② 计算每种取值的可能性 : 计算每种猜测的可能性 ;

③ 确定猜测 : 选取可能性最大的猜测 , 作为贝叶斯推断的结果 ;

VI . 贝叶斯公式

1 . 贝叶斯公式 :

公式 ①

P ( B | A ) = frac{P ( A | B ) times P ( B ) }{ P ( A | B ) times P ( B ) P ( A | sim B ) times P ( sim B ) }

简写形式 :

公式 ②

P ( B | A ) = frac{P ( AB )}{P ( A )}

或

公式 ③

P(B|A) = frac{P(B) times P(A|B)}{P(A) }

2 . 公式中的事件说明 : 有两个事件 , 事件

, 和事件

;

3 . 概率的表示方法 :

① 事件

发生的概率 : 表示为

P(A)

;

② 事件

发生的概率 : 表示为

P(B)

;

③

A B

两个事件同时发生的概率 : 表示为

P(A,B)

;

④ 事件

发生时

发生的概率 : 表示为

P(B | A)

;

VII . 贝叶斯公式 ③ 推导过程

1 . 事件

和

同时发生的概率 ( 第

种求法 ) :

① 先求

发生的概率 :

P(A)

② 再求

发生时

发生的概率 :

P(B | A)

③

同时发生的概率 :

P(A,B) = P(A) times P(B|A)

2 . 事件

和

同时发生的概率 ( 第

种求法 ) :

① 先求

发生的概率 :

P(B)

② 再求

发生时

发生的概率 :

P(A | B)

③

同时发生的概率 :

P(A,B) = P(B) times P(A|B)

3 . 公式 ③ 推导过程 :

P(A) times P(B|A)

与

P(B) times P(A|B)

两个公式是等价的 , 可推导出如下公式 :

P(A) times P(B|A) = P(B) times P(A|B)

P(B|A) = frac{P(B) times P(A|B)}{P(A) }

VIII . 使用贝叶斯公式求逆向概率

使用贝叶斯公式求逆向概率 :

知道

发生时 ,

发生的概率

P(A|B)

, 求其逆概率 :

发生时 ,

发生的概率

P(B|A)

;

可将已知的

P(A|B)

概率 , 和

单独发生的概率

P(A)

P(B)

, 代入如下公式 :

P(B|A) = frac{P(B) times P(A|B)}{P(A) }

即可得到其逆概率 ,

发生时 ,

发生的概率 ;

数据挖掘神经网络决策树互联网事件

0 人点赞

【数据挖掘】贝叶斯分类 ( 贝叶斯分类器 | 贝叶斯推断 | 逆向概率 | 贝叶斯公式 | 贝叶斯公式推导 | 使用贝叶斯公式求逆向概率 )

文章目录I . 贝叶斯分类器II . 贝叶斯推断 ( 逆向概率 )III . 贝叶斯推断 应用场景 ( 垃圾邮件过滤 )IV . 贝叶斯方法 由来V . 贝叶斯方法VI . 贝叶斯公式VII . 贝叶斯公式 ③ 推导过程VIII . 使用贝叶斯公式求逆向概率

I . 贝叶斯分类器

II . 贝叶斯推断 ( 逆向概率 )

III . 贝叶斯推断 应用场景 ( 垃圾邮件过滤 )

IV . 贝叶斯方法 由来

V . 贝叶斯方法

VI . 贝叶斯公式

VII . 贝叶斯公式 ③ 推导过程

VIII . 使用贝叶斯公式求逆向概率

文章目录
I . 贝叶斯分类器
II . 贝叶斯推断 ( 逆向概率 )
III . 贝叶斯推断应用场景 ( 垃圾邮件过滤 )
IV . 贝叶斯方法由来
V . 贝叶斯方法
VI . 贝叶斯公式
VII . 贝叶斯公式 ③ 推导过程
VIII . 使用贝叶斯公式求逆向概率

III . 贝叶斯推断应用场景 ( 垃圾邮件过滤 )

IV . 贝叶斯方法由来