关联规则算法（Apriori算法 and FP-growth算法）

文章目录

前言
Apriori算法
- 代码
FP-growth算法
- 代码

前言

由于学习关联规则时没有找到比较浅显易懂的博客，于是打算自己写一篇快速了解关联规则的博客

参考的博客:
FP-growth算法
Apriori算法

关联规则挖掘是一种基于规则的机器学习算法，可以在大数据样本库中挖掘频繁项集，它的目的是利用一些度量指标来寻找数据之间存在的强规则。也就是说关联规则挖掘是用于知识发现，而非预测，所以是属于无监督的机器学习方法。

打开你的搜索引擎，打入“你好”，它会给你匹配一些和“你好”一块出现的多的词条，这其实就是去找关于“你好”的频繁项集

频繁项集：支持度大于等于最小支持度的商品组合

我们以啤酒-尿布的商场营销案例来阐述关联规则挖掘的作用

沃尔玛在分析销售记录时，发现啤酒和尿布经常一起被购买，于是他们调整了货架，把两者放在一起，结果真的提升了啤酒的销量。

原因解释：爸爸在给宝宝买尿布的时候，会顺便给自己买点啤酒？

通过上述的案例我们找到了一个关联规则：啤酒→尿布；这个规则出现的频次很高，关联性很强

我们衡量频繁项集的指标有三个

支持度
所谓支持度，就是某个商品组合出现的次数在总购买记录中出现的次数
如：{牛奶}的支持度为45\frac{4}{5}54，{牛奶,面包}的支持度为35\frac{3}{5}53
置信度
置信度其实就是条件概率，表示在买了X的情况下再买Y的比例有多少，表示关联性的强弱

例如，在上面的案例中，牛奶出现的次数为4
牛奶和面包同时出现的次数为5
所以{牛奶,面包}的置信度为45\frac{4}{5}54
提升度
提升度就是商品X的出现，对商品B出现概率的提升程度

三种情况
提升度(x→y)>1：有提升
提升度(x→y)=1：没有提升，也没有下降
提升度(x→y)<1：有下降

Apriori算法

假设我们有4种商品：0,1,2,3
原本我们就嗯找，暴力穷举，计算每一种商品组合的支持度，然后找出支持度大于阈值的商品项集
如果商品有N种，那么就有2^N -1种商品项集，直接指数爆炸

于是有个老哥找到一个Apriori算法
原理：如果一个项集是非频繁集，那么它的所有超集也是非频繁的
就是说假如商品{1,3}是非频繁项集，那么所有包含{1,3}的项集都是非频繁项集，也就是我们一劳永逸了，只用算{1,3}的支持度就可以pass掉一堆

K项集：K个商品组成的集合，{牛奶，面包，啤酒}为3项集
最小支持度：自己设置，你设为0.5的话，所有出现频率小于0.5的商品集合就会给你筛掉
频繁项集：就是出现的多商品项集，拿去做商品推荐，假设{啤酒，尿布}为频繁项集，那如果有人买了啤酒，你就可以给他打尿布的广告

Apriori算法的流程
Step 1，K=1，计算K项集的支持度
Step 2，筛掉那些支持度小于最小支持度的商品项集
Step 3，如果筛光了，则K-1项集为最终的频繁项集，我们可以去做商品推荐了，yeah!
Step 4，否则，K=K+1，重复Step 1-3

举个栗子
这个老哥举了个不错的例子，我就不多bb了

代码

直接调包

from efficient_apriori import apriori

from mlxtend.frequent_patterns import apriori

from mlxtend.frequent_patterns import association_rules

from efficient_apriori import apriori
# 设置数据集
transactions = [('牛奶','面包','尿布'),('可乐','面包', '尿布', '啤酒'),('牛奶','尿布', '啤酒', '鸡蛋'),('面包', '牛奶', '尿布', '啤酒'),('面包', '牛奶', '尿布', '可乐')]
# 挖掘频繁项集和频繁规则
itemsets, rules = apriori(transactions, min_support=0.5,  min_confidence=1)
print("频繁项集：", itemsets)
print("关联规则：", rules)

输出：

频繁项集： {1: {('牛奶',): 4, ('尿布',): 5, ('面包',): 4, ('啤酒',): 3}, 2: {('尿布', '牛奶'): 4, ('尿布', '面包'): 4, ('牛奶', '面包'): 3, ('啤酒', '尿布'): 3}, 3: {('尿布', '牛奶', '面包'): 3}}关联规则： [{牛奶} -> {尿布}, {面包} -> {尿布}, {啤酒} -> {尿布}, {牛奶, 面包} -> {尿布}]

FP-growth算法

这位大佬讲的非常好，我就不在赘述了

代码

直接调包

import pyfpgrowth
transactions = [[1, 2, 5],[2, 4],[2, 3],[1, 2, 4],[1, 3],[2, 3],[1, 3],[1, 2, 3, 5],[1, 2, 3]]patterns = pyfpgrowth.find_frequent_patterns(transactions, 2)  # 频数删选  频数大于2
rules = pyfpgrowth.generate_association_rules(patterns, 0.6)  # 置信度(条件概率)删选
print(patterns)
print(rules)

输出：

# {频繁项:频数}
{(5,): 2, (1, 5): 2, (2, 5): 2, (1, 2, 5): 2, (4,): 2, (2, 4): 2, (1,): 6, (1, 2): 4, (2, 3): 4, (1, 2, 3): 2, (1, 3): 4, (2,): 7}
# {关联组合:置信度_即条件概率}
{(5,): ((1, 2), 1.0), (1, 5): ((2,), 1.0), (2, 5): ((1,), 1.0), (4,): ((2,), 1.0), (1,): ((3,), 0.6666666666666666)}