文章目录- I . 垃圾邮件过滤 需求 及 表示方法
- II . 贝叶斯方法 步骤 1 : 提出假设
- III . 贝叶斯方法 步骤 2 : 计算垃圾邮件假设概率
- IV . 贝叶斯方法 步骤 2 : 计算正常邮件假设概率
- V . 贝叶斯方法 步骤 3 : 比较假设的概率
- VI . 先验概率
和
- VII . 似然概率
和
I . 垃圾邮件过滤 需求 及 表示方法
1 . 需求 : 收到一封邮件 , 判断该邮件是否是垃圾邮件 ;
2 . 表示方法 :
① 收到邮件
:
表示收到的邮件 , 其有一定的特征 , 如包含指定的单词 等 ;
② 收到邮件
的概率 :
是符合一定要求的邮件 , 不是每一个收到的邮件都有
的特征 ;
③ 垃圾邮件
: 表示收到
邮件是
垃圾邮件 ; (
泛指垃圾邮件 , 不是指某一封邮件 )
④ 正常邮件
: 表示收到
邮件是
正常邮件 ; (
泛指正常邮件 , 不是指某一封邮件 )
II . 贝叶斯方法 步骤 1 : 提出假设
1 . 提出假设 : 收到邮件事件是
, 该邮件是否是垃圾邮件 , 只有两个假设 , 是 或 否 ,
① 假设
: 假设 收到的
邮件 是垃圾邮件
;
② 假设
: 假设 收到的
邮件 是正常邮件
;
III . 贝叶斯方法 步骤 2 : 计算垃圾邮件假设概率
1 . 计算该邮件是垃圾邮件的概率 :
① 需要计算的概率 : 收到邮件
后 , 该邮件是垃圾邮件
, 概率是
;
② 问题 : 很明显 , 这个概率求不出来 ;
2 . 引入贝叶斯公式 :
① 逆向概率 ( 似然概率 | 条件概率 ) : 收到垃圾邮件后 , 该邮件是
的概率 ; 这个概率可以由训练学习得到 , 数据量足够大 , 是可以知道的 ;
② 先验概率 : 收到
邮件的概率是已知的 ;
③ 后验概率 : 贝叶斯公式计算该邮件
是垃圾邮件的概率 :
IV . 贝叶斯方法 步骤 2 : 计算正常邮件假设概率
1 . 计算该邮件是正常邮件的概率 :
① 计算的概率 : 收到邮件
后 , 该邮件是正常邮件
, 概率是
;
② 问题 : 很明显 , 这个概率求不出来 ;
2 . 引入贝叶斯公式 :
① 逆向概率 ( 似然概率 | 条件概率 ) : 收到正常邮件
后 , 该邮件是
的概率 ; 这个概率可以由训练学习得到 , 数据量足够大 , 是可以知道的 ;
② 先验概率 : 收到
邮件的概率是已知的 ;
③ 后验概率 : 贝叶斯公式计算该邮件
是正常邮件的概率 :
V . 贝叶斯方法 步骤 3 : 比较假设的概率
1 . 假设概率 : 提出了
个假设 , 邮件
是垃圾邮件的概率是
, 邮件
是正常邮件的概率是
;
2 . 比较概率忽略分母 : 比较 上述两个概率 , 明显其分母都是
, 可以不考虑分母因素 , 只比较分子 ;
3 . 比较分子 : 比较
和
两个值的大小 ;
VI . 先验概率
和
1 . 先验概率 :
代表收到正常邮件的概率 ,
代表收到垃圾邮件的概率 ;
2 . 获取这两个概率 : 从系统后台服务器中的邮件库中获取垃圾邮件 和 正常邮件比例即可 ;
VII . 似然概率
和
1 .
概率 : 表示收到正常邮件时 , 该邮是
邮件的概率 , 即具有
邮件的特征 ; 需要在当前邮件库中找到具有该邮件
特征的邮件出现的概率 ;
2 .
概率 : 表示收到垃圾邮件时 , 该邮是
邮件的概率 , 即具有
邮件的特征 ; 需要在当前邮件库中找到具有该邮件
特征的邮件出现的概率 ;