机器学习算法:关联规则分析

2022-04-18 00:06:17 浏览数 (2)

作者:Peter 编辑:Peter

大家好,我是Peter~

今天给大家分享一个经典的机器学习算法:关联规则分析,从理论到代码到实战,全部拉满。

本文主要内容:

文章过长,建议收藏

经典案例

关联分析是一种从大规模的数据集中寻找有趣关系的方法。一个经常被用到关联分析的例子:购物篮分析

通过查看哪些商品经常在一起被顾客购买,可以帮助商店去了解用户的购买行为。

经典的啤酒和尿布的案例:

某家超市的销售管理人员在分析销售订单时发现,啤酒与尿布这两件看起来毫不关联的商品竟然经常会出现在同一个订单中。

后来跟踪调查发现,原来年轻夫妇一般在周五晚上妻子会安排丈夫去超市购买尿布,而丈夫在购买尿布时总会忍不住顺便给自己买上几罐啤酒。

这就是为什么啤酒和尿布这两件看起来毫不关联的商品经常会出现在同一个购物篮中。

为了解决啤酒和尿布同时出现的问题,这样便引出了关联规则分析的算法。

关联规则如今还被用在许多应用领域中,包括网络用法挖掘、入侵检测、连续生产及生物信息学中。

相关术语

在利用关联规则(分析)的过程中,经常会遇到几个术语:

事务库

上面的商品购物的数据就是一个事务库,记录的每条数据。

事务

事务库中的每条记录称之为一笔事务。一笔事务就是一次购买行为。

k-项集

在上面的例子中,每个商品称之为一个“项”。项的集合称之为项集。比如{尿布},{尿布,啤酒},{尿布,莴苣},{尿布,啤酒,莴苣}等都是项集,也就是不同商品的组合。

含有k个项的项集称之为k-项集,1-项集,2-项集,….,k-项集

关联规则

关联规则association rules:暗示物品之间可能存在很强的关系,是形如$A—>B$的形式。

其中A称之为前件,B称之为后件,表示:如果用户购买了A商品,也会购买B商品。

在这里,AB可以是单一的商品,也可以是某个项集

比如:{A,B} —>{C}表示的就是如果用户购买了AB商品,那么也会购买C商品。

频繁项集

频繁项集frequent item sets:是指经常出现在一块的物品的集合。比如上面例子中的{尿布,葡萄酒}就是一个很好的例子。

支持度(下面

0 人点赞