【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 | 项 Item 概念 | 项集 Item Set | 频繁项集 | 示例解析 )

2023-03-28 18:57:51 浏览数 (1)

文章目录

  • 一、 关联规则挖掘简介
  • 二、 数据集 与 事物 ( Transaction ) 概念
  • 三、项 ( Item ) 概念
  • 四、项集 ( Item Set ) 概念
  • 五、频繁项集
  • 六、数据集、事物、项、项集合、项集 示例

一、 关联规则挖掘简介


Apriori 算法 是 关联规则 挖掘算法 ,

关联规则 反映了 对象之间 相互依赖关系 ,

可以通过 一个对象 的行为或属性 预测 其它对象的行为或属性 ;

关联规则 不是 因果关系 , 有可能有因果关系 , 有可能没有 ;

如 : 购买商品时 , 啤酒 与 尿布 就有关联关系 , 这两个之间肯定没有因果关系 , 有一种未知的关联关系 ;

关联规则挖掘步骤 :

① 步骤一 : 找出 支持度

geq

最小支持度阈值 的 频繁项集 ;

② 步骤二 : 根据 频繁模式 生成 满足 可信度阈值 的 关联规则 ;

二、 数据集 与 事物 ( Transaction ) 概念


数据集 与 事物 ( Transaction ) 概念 :

数据挖掘 数据集 由 事物 构成 ;

数据集 记做

D

;

使用事物表示 数据集 , 表示为

D = { t_1 , t_2 , cdots , t_n }

,

其中

t_k , ( k = 1, 2, cdots, n )

称为事物 ;

每个事物可以使用 唯一的标识符 表示 事物编号 ( TID ) ;

三、项 ( Item ) 概念


项 ( Item ) 概念 :

每个 事物 ( Transaction ) 由多个 项 ( Item ) 组成 ;

项 记做

i

;

表示为

t_k = { i_1 , i_2 , cdots , i_n }

;

数据集

D

是所有 项

i

的集合 是

I

集合 ;

四、项集 ( Item Set ) 概念


项集 ( Item Set ) 概念 :

I

中的 任意子集

X

, 称为 数据集

D

的 项集 ( Item Set ) ;

如果 项集 ( Item Set ) 中 项 ( Item ) 个数为

k

,

则称该 项集 ( Item Set ) 为

k

项集 ( k-itemset ) ;

五、频繁项集


频繁项集 : 频繁项集指的是出现次数较多的项集 ;

六、数据集、事物、项、项集合、项集 示例


事物编号

事物 ( 商品 )

001 001 001

奶粉 , 莴苣

002 002 002

莴苣 , 尿布 , 啤酒 , 甜菜

003 003 003

奶粉 , 尿布 , 啤酒 , 橙汁

004 004 004

奶粉 , 莴苣 , 尿布 , 啤酒

005 005 005

奶粉 , 莴苣 , 尿布 , 橙汁

001

奶粉 , 莴苣

002

莴苣 , 尿布 , 啤酒 , 甜菜

003

奶粉 , 尿布 , 啤酒 , 橙汁

004

奶粉 , 莴苣 , 尿布 , 啤酒

005

奶粉 , 莴苣 , 尿布 , 橙汁

整个 数据集

D

, 由

5

个事物 构成 ;

数据集 :

D = { t_1 , t_2 , t_3 , t_4, t_5 }

事物

1

:

t_1 = { 奶粉 , 莴苣 }

事物

2

:

t_2 = { 莴苣 , 尿布 , 啤酒 , 甜菜 }

事物

3

:

t_3 = { 奶粉 , 尿布 , 啤酒 , 橙汁 }

事物

4

:

t_4 = { 奶粉 , 莴苣 , 尿布 , 啤酒 }

事物

5

:

t_5 = { 奶粉 , 莴苣 , 尿布 , 橙汁 }

上述 事物 集合中的元素

i

都称为项 ,

奶粉 , 莴苣 , 尿布 , 啤酒 , 甜菜 , 橙汁

都是 项 ;

I = { 奶粉 , 莴苣 , 尿布 , 啤酒 , 甜菜 , 橙汁 }

项集 : 任意不相同的项组成的集合就称为项集 , 上述

6

个元素的集合有

2^6

个项集 ; 参考集合幂集个数

{ 奶粉 }

1

项集 ;

{ 尿布 , 啤酒 }

2

项集 ;

{ 莴苣 , 尿布 , 啤酒 }

3

项集 ;

{ 奶粉 , 莴苣 , 尿布 , 啤酒 }

4

项集 ;

{ 奶粉 , 莴苣 , 尿布 , 啤酒 , 甜菜 }

5

项集 ;

{ 奶粉 , 莴苣 , 尿布 , 啤酒 , 甜菜 , 橙汁 }

6

项集 ;

0 人点赞