【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则 | 数据项支持度 | 关联规则支持度 )

2023-03-28 18:58:15 浏览数 (1)

文章目录

  • 一、 关联规则
  • 二、 数据项支持度
  • 三、 关联规则支持度

参考博客 :

  • 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 | 项 Item 概念 | 项集 Item Set | 频繁项集 | 示例解析 )

一、 关联规则


关联规则 是指 :

某些 项集 出现在一个 事务 中 ,

可以推导出 :

另外一些 项集 也出现在同一个 事务 中 ;

如 : 事物

2

:

t_2 = { 莴苣 , 尿布 , 啤酒 , 甜菜 }
{ 啤酒 }
1

项集 出现在购买清单 事务

2

中 ,

{ 尿布 }
1

项集 也出现在购买清单 事务

2

中 ;

二、 数据项支持度


支持度 表示 数据项 ( Item ) 在 事务 ( Transaction ) 中的 出现频度 ;

支持度公式 :

rm Support (X) = cfrac{count (X)}{count (D)}
rm Support (X)

指的是

rm X

项集的支持度 ;

rm count (X)

指的是 数据集

rm D

中含有项集

rm X

的事务个数 ;

rm count(D)

指的是 数据集

rm D

的事务总数 ;

示例 : 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 | 项 Item 概念 | 项集 Item Set | 频繁项集 | 示例解析 ) 六、数据集、事物、项、项集合、项集 示例

数据集

rm D

为 :

事物编号

事物 ( 商品 )

001 001 001

奶粉 , 莴苣

002 002 002

莴苣 , 尿布 , 啤酒 , 甜菜

003 003 003

奶粉 , 尿布 , 啤酒 , 橙汁

004 004 004

奶粉 , 莴苣 , 尿布 , 啤酒

005 005 005

奶粉 , 莴苣 , 尿布 , 橙汁

001

奶粉 , 莴苣

002

莴苣 , 尿布 , 啤酒 , 甜菜

003

奶粉 , 尿布 , 啤酒 , 橙汁

004

奶粉 , 莴苣 , 尿布 , 啤酒

005

奶粉 , 莴苣 , 尿布 , 橙汁

项集

rm X={ 奶粉 }

, 求该项集的支持度

rm ?

根据上述公式

rm Support (X) = cfrac{count (X)}{count (D)}

计算支持度 ;

rm count (X)

指的是 数据集

rm D

中含有项集

rm X

的事务个数 ;

含有

rm X={ 奶粉 }

项集的事务有 事务

rm 1

, 事务

3

, 事务

4

, 事务

5

, 得出 :

rm count (X) = 4
rm count(D)

指的是 数据集

rm D

的事务总数 ; 得出

rm count(D) = 5

则计算支持度 :

rm Support (X) = cfrac{count (X)}{count (D)}
rm Support (X) = cfrac{4}{5}

三、 关联规则支持度


关联规则

rm X Rightarrow Y

的支持度 ,

等于 项集

rm X cup Y

的支持度 ;

公式为 :

rm Support (X Rightarrow Y) = Support (X cup Y) = cfrac{count (X cup Y)}{count (D)}

示例 : 数据集

rm D

为 :

事物编号

事物 ( 商品 )

001 001 001

奶粉 , 莴苣

002 002 002

莴苣 , 尿布 , 啤酒 , 甜菜

003 003 003

奶粉 , 尿布 , 啤酒 , 橙汁

004 004 004

奶粉 , 莴苣 , 尿布 , 啤酒

005 005 005

奶粉 , 莴苣 , 尿布 , 橙汁

001

奶粉 , 莴苣

002

莴苣 , 尿布 , 啤酒 , 甜菜

003

奶粉 , 尿布 , 啤酒 , 橙汁

004

奶粉 , 莴苣 , 尿布 , 啤酒

005

奶粉 , 莴苣 , 尿布 , 橙汁

求关联规则

rm 尿布 Rightarrow 啤酒

的支持度

?

上述问题等价于 , 项集

rm X={ 尿布 , 啤酒 }

的支持度 ;

根据上述公式

rm Support (X Rightarrow Y) = Support (X cup Y) = cfrac{count (X cup Y)}{count (D)}

计算支持度 ;

rm count (X cup Y)

指的是 数据集

rm D

中含有项集

rm X cup Y

的事务个数 ;

含有

rm X cup Y={ 尿布 , 啤酒 }

项集的事务有 事务

rm 2

, 事务

3

, 事务

4

, 得出 :

rm count (X cup Y) = 3
rm count(D)

指的是 数据集

rm D

的事务总数 ; 得出

rm count(D) = 5

则计算支持度 :

rm Support (X Rightarrow Y) = Support (X cup Y) = cfrac{count (X cup Y)}{count (D)}
rm Support (X) = Support (X cup Y) = cfrac{3}{5}

0 人点赞