关联分析
关联分析是一种从大规模的数据集中寻找有趣关系的方法。一个经常被用到关联分析的例子:购物篮分析。通过查看哪些商品经常在一起被顾客购买,可以帮助商店去了解用户的购买行为。
经典案例
经典的啤酒和尿布的案例:
某家超市的销售管理人员在分析销售订单时发现,啤酒与尿布这两件看起来毫不关联的商品竟然经常会出现在同一个订单中。后来跟踪调查发现,原来年轻夫妇一般在周五晚上妻子会安排丈夫去超市购买尿布,而丈夫在购买尿布时总会忍不住顺便给自己买上几罐啤酒。 这就是为什么啤酒和尿布这两件看起来毫不关联的商品经常会出现在同一个购物篮中。
为了解决啤酒和尿布同时出现的问题,这样便引出了关联规则分析的算法。
相关术语
在利用关联规则(分析)的过程中,经常会遇到几个术语:
事务库
上面的商品购物的数据就是一个事务库,记录的每条数据。
事务
事务库中的每条记录称之为一笔事务。一笔事务就是一次购买行为。
k-项集
在上面的例子中,每个商品称之为一个“项”。项的集合称之为项集。比如**{尿布},{尿布,啤酒},{尿布,莴苣},{尿布,啤酒,莴苣}**等都是项集,也就是不同商品的组合。
含有k个项的项集称之为k-项集,1-项集,2-项集,….,k-项集
关联规则
关联规则association rules:暗示物品之间可能存在很强的关系,是形如A—>B
其中A称之为前件,B称之为后件,表示:如果用户购买了A商品,也会购买B商品。
在这里,AB可以是单一的商品,也可以是某个项集
比如:{A,B} —>{C}表示的就是如果用户购买了AB商品,那么也会购买C商品。
频繁项集
频繁项集frequent item sets:是指经常出现在一块的物品的集合。比如上面例子中的{尿布,葡萄酒}就是一个很好的例子。
支持度(下面