【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则性质 | 非频繁项集超集性质 | 频繁项集子集性质 | 项集与超集支持度性质 )

2023-03-28 18:58:58 浏览数 (1)

文章目录

  • 一、 非频繁项集超集性质
  • 二、 频繁项集子集性质
  • 三、 项集与超集支持度性质

参考博客 :

  • 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 | 项 Item 概念 | 项集 Item Set | 频繁项集 | 示例解析 )
  • 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则 | 数据项支持度 | 关联规则支持度 )
  • 【数据挖掘】关联规则挖掘 Apriori 算法 ( 置信度 | 置信度示例 )
  • 【数据挖掘】关联规则挖掘 Apriori 算法 ( 频繁项集 | 非频繁项集 | 强关联规则 | 弱关联规则 | 发现关联规则 )

一、 非频繁项集超集性质


关联规则 性质 1 : 非频繁项集 的 超集 一定是 非频繁的 ;

超集 就是 包含 该集合的集合 ;

项集

rm X

是 非频繁项集 ,

项集

rm Y

是 项集

rm X

的超集 ,

( 使用集合表示 :

rm X subseteq Y , X not= varnothing

, 项集

rm Y

包含 项集

rm X

, 并且 项集

rm X

不为空集 )

则 项集

rm Y

一定是 非频繁的 ;

举例 :

数据集

rm D

为 :

事物编号

事物 ( 商品 )

001 001 001

奶粉 , 莴苣

002 002 002

莴苣 , 尿布 , 啤酒 , 甜菜

003 003 003

奶粉 , 尿布 , 啤酒 , 橙汁

004 004 004

奶粉 , 莴苣 , 尿布 , 啤酒

005 005 005

奶粉 , 莴苣 , 尿布 , 橙汁

001

奶粉 , 莴苣

002

莴苣 , 尿布 , 啤酒 , 甜菜

003

奶粉 , 尿布 , 啤酒 , 橙汁

004

奶粉 , 莴苣 , 尿布 , 啤酒

005

奶粉 , 莴苣 , 尿布 , 橙汁

1

项集

{ 甜菜 }
2

项集

{ 甜菜 , 啤酒 }

上述

{ 甜菜 , 啤酒 }

就是

{ 甜菜 }

的 超集 ,

1

项集

{ 甜菜 }

其支持度是

rm 0.2

, 小于最小支持度

rm minsup = 0.6

, 是 非频繁项集

那么

{ 甜菜 , 啤酒 }

也是 非频繁项集 ;

在具体算法中会使用该性质 , 用于进行 “剪枝” 操作 ;

计算支持度时 , 按照

1

项集 支持度 ,

2

项集 支持度 ,

cdots

顺序进行计算 ,

如果发现

1

项集 中有 非频繁项集 , 则包含该

1

项集的

rm n

项集 肯定是 非频繁项集 ;

然后使用 频繁

1

项集 组合成

2

项集 , 然后再计算这些

2

项集是否是频繁项集 ;

“剪枝” 操作 减少了不必要的计算量 ;

二、 频繁项集子集性质


频繁项集 的 所有非空子集 , 一定是 频繁项集 ;

项集

rm Y

是 频繁项集 ,

项集

rm Y

是 项集

rm X

的超集 ,

( 使用集合表示 :

rm X subseteq Y , X not= varnothing

, 项集

rm Y

包含 项集

rm X

, 并且 项集

rm X

不为空集 )

则 项集

rm X

一定是 频繁的 ;

举例 :

数据集

rm D

为 :

事物编号

事物 ( 商品 )

001 001 001

奶粉 , 莴苣

002 002 002

莴苣 , 尿布 , 啤酒 , 甜菜

003 003 003

奶粉 , 尿布 , 啤酒 , 橙汁

004 004 004

奶粉 , 莴苣 , 尿布 , 啤酒

005 005 005

奶粉 , 莴苣 , 尿布 , 橙汁

001

奶粉 , 莴苣

002

莴苣 , 尿布 , 啤酒 , 甜菜

003

奶粉 , 尿布 , 啤酒 , 橙汁

004

奶粉 , 莴苣 , 尿布 , 啤酒

005

奶粉 , 莴苣 , 尿布 , 橙汁

1

项集

{ 尿布 }

,

{ 啤酒 }
2

项集

{ 尿布 , 啤酒 }
2

项集

{ 尿布 , 啤酒 }

其支持度是

rm 0.6

, 等于最小支持度

rm minsup = 0.6

, 是 频繁项集

那么

2

项集

{ 尿布 , 啤酒 }

的子集是

1

项集

{ 尿布 }

,

{ 啤酒 }

,

根据上述性质 ,

1

项集

{ 尿布 }

,

{ 啤酒 }

都是 频繁项集 ;

三、 项集与超集支持度性质


任意一个 项集 的 支持度 , 都 大于等于 其 超集 支持度 ;

超集 就是 包含 该集合的集合 ;

0 人点赞