关联规则(一):基本原理

2019-05-15 12:55:36 浏览数 (2)

1. 前言

1.1 基本介绍

讨论应用于数据挖掘的机器学习方法时,这些方法可分为参数化方法和非参数化方法。

参数化方法包括分类、回归等模型,优点是用少量的参数简化了建模问题,主要缺点是初始假设在许多实际问题中不成立,导致误差过大。

非参数化估计中,仅假定近似的输入会产生近似的输出,这类方法没有假设任何先验密度或参数形式,没有单个全局模型,仅估计局部模型,局部模型仅受邻近训练样本的影响。关联规则是在无指导学习系统中发现局部模式的最常见形式。

1.2 基本概念

购物篮分析的重要性不言而喻,而其可应用性则由关联分析完成。

购物篮是一个顾客在一次事务中所购买商品的集合,事务是一个明确定义的商业行为,常称为购物篮事务(market basket transaction)

一个事务T,包含一个唯一标识TID,以及项目的集合(如下图所示)。

项目 item 对交易来说就是指一个商品(比如:尿布),项目的集合则称为项集 itemset(比如:{啤酒,尿布}),根据其包含的项目数 i , 称为 i-项集,比如{啤酒,尿布} 该项集为 2-项集, 所有项集的合集则称为全项集 itemsets

关联规则 association rule : 如 {啤酒} → {尿布} ,表征由项集 {啤酒} 指向项集 {尿布} ,关联规则都含有方向。

支持度 support :项集{ 啤酒, 尿布 }在全项集中出现的概率。通常用项集出现的频率去估计其概率。从概率的角度去解释即 P( {啤酒,尿布} ) 。

置信度 confidence :在先决条件 {啤酒} 发生的条件下,由关联规则 {啤酒} → {尿布} 推出 {尿布} 的概率 , 表征关联规则正确的概率。从概率的角度去解释即 P( 尿布 | 啤酒 ) 。

提升度 lift (也称为兴趣度):表示含有 {啤酒} 的条件下同时含有 {尿布} 的概率,即confidence({啤酒} {尿布}) ; 与无论含不含 {啤酒} 含有 {尿布} 的概率,即Support({尿布}) ,两者之比。 总的来说就是 lift = P( 尿布 | 啤酒 ) / Support( 尿布 ) 。

可见,提升度是对支持度、置信度全面衡量的一个指标。它反映了 {啤酒} 的出现对 {尿布} 的出现概率的变化产生了多少影响。

关联规则的发现通常分为两步:

1. 发现大项集,即从事务数据集中找到支持度大于设定的最小阈值的项集(称为频繁项集frequent itemset);

2. 使用找到的大项集(即频繁项集),提取置信度高于设定最小阈值的规则。

可以发现,支持度是对规则重要性的度量,而置信度是对规则准确性的度量,那么对于产生的规则我们也就能判断它们的实用性了。

支持度

置信度

正确性

实用性

经常使用

经常使用

2. 关联规则分类

1. 基于规则中处理的数据类型

  • 布尔型:买啤酒 → 买尿布
  • 量化型:月收入5000元 → 每月交通费800元 ; 性别女 → 每月服装花费2000元

2. 基于规则中数据的抽象层次

  • 单层关联规则(所有项在同一个抽象层): NIKE球鞋 → 安踏球鞋
  • 多层关联规则(项集涉及不同抽象层):球鞋 → NIKE 球鞋, 球鞋对于确定了品牌的NIKE 的球鞋的层次要高,相当于是 类目 与 品目 之间跨层次的规则

3. 基于规则中涉及的数据维度

  • 单维关联规则:啤酒 → 尿布,只涉及到用户的购买的物品,表示在一个属性内的规则
  • 多维关联规则:性别=”女” → 职业=”秘书”,涉及到两个属性维度性别和职业

3. 应用场景

  • 购物篮分析、分类设计、货存安排、捆绑销售、亏本销售分析
  • 电子商务网站的交叉推荐销售
  • 超市里货架摆放设计
  • 服装制造企业对于流水线制造服装的缺陷管理
  • 分离关联规则的发现(即互斥商品的发现,不可能同时购买的商品)
  • 视频、音乐、图书等的个性化推荐

0 人点赞