是什么:

apriori算法是第一个关联规则挖掘算法,利用逐层搜索的迭代方法找出数据库中的项集(项的集合)的关系,以形成规则,其过程由连接(类矩阵运算)与剪枝(去掉没必要的中间结果)组成。是一种挖掘关联规则的频繁项集算法,一种最有影响的挖掘布尔关联规则频繁项集的算法。核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。

关联规则挖掘,在最早提出时,是为了发现交易数据库中不同商品之间的联系规则。刻画顾客购买行为模型,指导商家科学地进行进货,库存以及货架设计等。

改进的算法有:并行关联规则挖掘Parallel Association Rule Mining,以及数量关联规则挖掘Quantitive Association Rule Mining。提高挖掘规则算法的效率,适应性,可用性以及应用推荐。

频繁项集的评估标准:支持度,置信度,提升度三个方面。

应用领域:在商业,网络安全广泛使用。通过对数据的关联性进行了分析和挖掘,挖掘出的这些信息在决策制定过程中具有重要的参考价值。

在消费市场价格分析中,能够很快求出各种产品之间的价格关系和它们之间的影响,可以瞄准目标客户,采用个人股票行市,最新细心,特殊的市场推广活动或其他的一些特殊信息手段,减少广告预算和增加收入。预测客户的消费习惯。

相关概念:

支持度:a和b同时出现的概率,或者是几个关联的数据在数据集中出现的次数占总数据集的比重。

置信度:a和b同时出现的概率占a出现概率的比值,或者是一个数据出现后,另一个数据出现的概率,或者说数据的条件概率。

提升度:表示含有y的条件下, 同时含有x的概率,与x总体发生的概率之比。提升度体现了x和y之间的关联关系,提升度大于1则xy是有效的强关联规则,小于等于1则是无效的强关联规则。

频繁项集:频繁项集挖掘可以告诉我们在数据集中经常一起出现的变量,为可能的决策提供一些支持。频繁项集挖掘是关联规则,相关性分析,因果分析,序列项集,局部周期性等许多数据挖掘任务的基础。应用在购物车分析,网页预取,交叉购物,个性化网站等。

强关联规则:满足最小支持度和最小置信度的关联规则。

相类似的算法:

PrefixSpan

CBA

FP-Tree

GSP

FP-growth 算法

属于关联分析算法,采取的分治策略如下:将提供频繁项集的数据库压缩到一颗频繁模式树FP-Tree ,保留项集关联信息。在算法中使用了一种称为频繁模式树的数据结构,fp-tree是一种特殊的前缀树,有频繁项头表和项前缀树构成。用于改善Apriori算法,加快整个挖掘过程。

相关概念:

FP-Tree :将事务数据表中的各个事务数据项按照支持度排序后,把每个事务中的数据项按降序一次插入到一颗以null为根节点的树中,同时在每个节点处记录该节点出现的支持度。

条件模式基:包含FP-Tree中与后缀模式一起出现的前缀路径的集合。

条件树:将条件模式基按照FP-Tree的构造原则形成的一个新的FP-Tree。

基本思路:不断的迭代FP-Tree的构造和投影过程。

算法描述:对于每个频繁项,构造ta 的条件投影数据库和投影FP-Tree

对每个新构建的FP-Tree重复这个过程,知道构造新的FP-Tree为空,或者只包含一条路径。

当构造的FP-Tree为空时,其前缀即为频繁模式,当只包含一条路径时,通过枚举所以可能组合并与此树的前缀连接即可得到频繁模式。

该算法的流程为:首先构造FP树,然后利用ta来挖掘频繁项集。在构造fp树时,需要对数据集扫描两次,一次为用来统计频率(频次和频率),第二次扫描至考虑频繁项集。

缺点:对数据库扫描数次过多

apriori会产生大量的中间项集

采用唯一支持度

算法的适应面窄

参考:https://bainingchao.github.io/2018/09/27/%E4%B8%80%E6%AD%A5%E6%AD%A5%E6%95%99%E4%BD%A0%E8%BD%BB%E6%9D%BE%E5%AD%A6%E5%85%B3%E8%81%94%E8%A7%84%E5%88%99Apriori%E7%AE%97%E6%B3%95/​bainingchao.github.io数据挖掘十大算法--Apriori算法_小硒---代码无疆-CSDN博客​blog.csdn.netSuranyi:Apriori 算法简介及 python3实现​zhuanlan.zhihu.com机器学习(九)-FP-growth算法 - Yabea - 博客园​www.cnblogs.comFP Tree算法原理总结 - 刘建平Pinard - 博客园​www.cnblogs.comFP-growth算法--原理_jmhIcoding-CSDN博客​blog.csdn.netSuperman:FP-Growth算法简介​zhuanlan.zhihu.com

python apriori算法 sklearn_sklearn(九)apriori 关联规则算法,以及FP-growth 算法相关推荐

  1. Frequent Pattern 挖掘之二(FP Growth算法)(转)

    FP树构造 FP Growth算法利用了巧妙的数据结构,大大降低了Aproir挖掘算法的代价,他不需要不断得生成候选项目队列和不断得扫描整个数据库进行比对.为了达到这样的效果,它采用了一种简洁的数据结 ...

  2. MapReduce框架下的FP Growth算法概述

    转载自:http://blog.sina.com.cn/s/blog_68ffc7a40100uebi.html 前面的博客分析了关联分析中非常重要的一个算法-FP Growth.该算法根据数据库在内 ...

  3. FP Growth算法

    转载自:http://blog.sina.com.cn/s/blog_68ffc7a40100uebg.html FP树构造 FP Growth算法利用了巧妙的数据结构,大大降低了Aproir挖掘算法 ...

  4. MapReduce框架下的FP Growth算法详解

    转载自:http://blog.sina.com.cn/s/blog_68ffc7a40100uebk.html Sharding 这一步没什么好讲的,将数据库分成连续的大小相等的几个块,放置在不同的 ...

  5. FP Growth算法详解

    看了n多资料,就这篇说的比较详细,适合初学者 FP树构造 FP Growth算法利用了巧妙的数据结构,大大降低了Aproir挖掘算法的代价,他不需要不断得生成候选项目队列和不断得扫描整个数据库进行比对 ...

  6. 【白话机器学习】算法理论+实战之关联规则

    1. 写在前面 如果想从事数据挖掘或者机器学习的工作,掌握常用的机器学习算法是非常有必要的,常见的机器学习算法: 监督学习算法:逻辑回归,线性回归,决策树,朴素贝叶斯,K近邻,支持向量机,集成算法Ad ...

  7. FP Tree算法原理总结(转)

    FP Tree算法原理总结 转自: https://www.cnblogs.com/zhengxingpeng/p/6679280.html 总结得太好了. FP Tree算法原理总结 在Aprior ...

  8. FP Tree算法原理

    作为一个挖掘频繁项集的算法,Apriori算法需要多次扫描数据,I/O是很大的瓶颈.为了解决这个问题,FP Tree算法(也称FP Growth算法)采用了一些技巧,无论多少数据,只需要扫描两次数据集 ...

  9. apriori算法代码_sklearn(九)apriori 关联规则算法,以及FP-growth 算法

    是什么: apriori算法是第一个关联规则挖掘算法,利用逐层搜索的迭代方法找出数据库中的项集(项的集合)的关系,以形成规则,其过程由连接(类矩阵运算)与剪枝(去掉没必要的中间结果)组成.是一种挖掘关 ...

最新文章

  1. 为ML带来拓扑学基础,Nature子刊提出拓扑数据分析方法
  2. PostgreSQL SystemTap on Linux 转
  3. CFtpFileFind FindFile卡住的问题
  4. html图片分四面切割播,CSS3切割轮播图
  5. 电子商务数据运营的五大应用
  6. IntelliJ IDEA+Maven运行apache-storm的LocalCluster例子
  7. Java常见异常类【整理】
  8. 初用mescroll-uni
  9. eclipse tomcat 热部署
  10. python中英文时间转换
  11. 深信服Python笔试
  12. 计算机名词解释显存,显卡名词解释之显存类型
  13. iOS优秀的图片压缩处理方案
  14. 2019汤家凤考研数学资料【超全】
  15. 《Better Performance at Lower Occupancy》解读
  16. 利用智能算法优化参数的自适应变分模态分解,VMD实现混合储能系统的分频
  17. python程序设计江红答案_python程序设计江红答案
  18. javascript运动框架(三)
  19. 甘特图看起来很生硬?教你使用智能颜色装饰你的甘特图!(三)
  20. 视频教程-Cesium入门-JavaScript

热门文章

  1. [转载]空姐飞行日记 - 好爱老婆的德国乘务长
  2. CVPR2010奇文一篇共欣赏--如何“写论文”
  3. Linux环境下服务启动命令汇总
  4. CSDN博文周刊第5期:狼性文化遭质疑,那我们当个佛系程序员可好?
  5. 瑞萨e2studio(19)----RTC时钟日历闹钟周期性中断
  6. 小王不会玩的总结 目录
  7. 查询oracle表序列,Oracle查询全部序列
  8. python中函数返回值是函数的函数的用法 func()()
  9. Far Cry and Half Life2 Engine scene technique (Dreams_wu原作,转自Sina游戏论坛)
  10. uniapp 之 扫普通二维码进入小程序