基本概念

频繁模式挖掘搜索给定数据及中国反复出现的联系。

购物篮分析:一个例子

频繁项集、闭项集和关联规则

规则的支持度置信度是规则兴趣度的两种度量。
一个例子:

  • 支持度:支持度为2%,意味着分析的所有事务的2%显示计算机和杀毒软件被同时购买
  • 置信度:置信度60%,意味着购买计算机的顾客60%也购买了杀毒软件。

    在典型情况下,如果满足最小支持度阈值最小置信度阈值,关联规则被认为是有趣的。

设$\mathcal{I} = {I_1, I_2,...,I_m}$是项的集合,设任务相关的数据$D$是数据库事务的集合,其中每个事务$T$是一个非空相机,使得$T \subseteq \mathcal{I}$。每个事务都有一个标识符,称为$TID$。假设$A、B$分别表示一个项集,则:

同时满足最小支持度阈值(min_sup)最小置信度阈值(min_conf)的规则称为强规则,为方便计算,用0% - 100%之间的值,而不是0.0-1.0之间的值表示支持度和置信度。

置信度的另外的计算方法就是用项集的频度支持度计数

一般而言,关联规则的挖掘是一个两步的过程:

  1. 找出所有的频繁项集: 这些项集的每一个频繁出现的次数至少与预定义的最小支持计数min_sup一样。
  2. 由频繁项集产生强关联规则:这些规则必须满足最小支持度和最小置信度。

频繁项集挖掘方法

Apriori算法是一种发现频繁项集的基本算法。

Apriori算法:通过限制候选产生发现频繁项集



先验性质: 频繁项集的所有非空子集也一定是频繁的。

如何在算法中使用先验性质?

  • 连接步
  • 剪枝步

下面通过一个例子说明:



由频繁项集产生关联规则

由上面计算置信度的公式:

下来是一个例子:

如果最小置信度的阈值为70%,则只有第2、第3和最后一个规则可以输出,因为只有这些是强规则。

提高Apriori算法的效率

  • 基于散列的计数: 一种基于散列的计数可以用于研所候选k项集的集合。

以考察k=2项集为例,对应得桶计数低于支持度阈值的2项集不可能是频繁的,因此直接从候选集中删除:

其中$h(x,y) = ((x的序) * 10 + (y的序)) mod 7$中的$x,y$的序表示的是项集的下标。

  • 事务压缩
  • 划分(为找候选项集划分数据)

挖掘频繁项集的模式增长方法

Apriori算法的候选产生-检查方法显著压缩了候选项集的规模,并产生了很好的性能,但是它可能受两种非平凡开销的影响。

  • 它可能仍然需要产生大量候选项集。例如,如果有$10^4$个频繁1项集,则Apriori算法需要产生多达$10^7$个候选2项集
  • 它可能休要重复扫描整个数据库,通过模式匹配来检查一个很大的候选集合,检查数据库中每个事务来确定候选项集支持度的开销很大。

一种不产生候选项集的方法叫做频繁模式增长(FP-growth),算法思想如下:

例子如下:


FP树的挖掘过程如下:

使用垂直数据格式挖掘频繁项集

Apriori算法和FP-growth算法都从TID项集格式的事务集中挖掘频繁模式(即${TID: itemset}$),这种数据格式称为水平数据格式

其中TID是事务表示符,而itemset是事务TID中购买的商品

也可以反过来使用${item :TID_set}$格式表示,这种数据格式称为垂直数据格式



这种方法的优点:

  1. 项集的支持度计算简单地等于项集的TID集的长度
  2. 不需要扫描数据库来确定(k+1)项集的支持度,因为每个k项集的TID集携带了计算支持度的完整信息。

转载于:https://www.cnblogs.com/htfeng/p/9935704.html

挖掘频繁模式、关联和相关性:基本概念和方法相关推荐

  1. 【数据挖掘笔记六】挖掘频繁模式、关联和相关性:基本概念和方法

    6.挖掘频繁模式.关联和相关性:基本概念和方法 频繁模式(frequent pattern)是频繁地出现在数据集中的模式. 6.1 基本概念 频繁模式挖掘搜索给定数据集中反复出现的联系,旨在发现大型事 ...

  2. 挖掘频繁模式、关联和Apriori算法

    挖掘频繁模式.关联和Apriori算法 1. 引入 1.1 基本概念 频繁模式:频繁出现在数据集中的模式 频繁模式挖掘:获取到给定数据集中反复出现的联系 注:模式其实可以理解为,你在淘宝购物,你的购物 ...

  3. apriori算法_挖掘频繁模式、关联和Apriori算法

    挖掘频繁模式.关联和Apriori算法 1. 引入 1.1 基本概念 频繁模式:频繁出现在数据集中的模式 频繁模式挖掘:获取到给定数据集中反复出现的联系 注:模式其实可以理解为,你在淘宝购物,你的购物 ...

  4. 挖掘频繁模式、关联和相关

    前言 如何从大量的事务的或关系的数据中发现关联规则? 如何挖掘多层和多维空间中的关联规则? 什么样的关联规则是最有趣的? 如何帮助或指导挖掘过程发现有趣的关联或相关? 如何利用用户选择的参数或约束加快 ...

  5. 十七、频繁模式、关联和相关性的基本概念和方法

    1.挖掘频繁模式.关联和相关性 动机:寻找数据的内在规律 什么样的产品会经常在一起购买? 当购买一台电脑后,后续会有哪些购买行为? 数据离散化是一种数据变换形式. 数据变换策略概述 通过规范化变换数据 ...

  6. 频繁模式挖掘——概述

    频繁模式挖掘(Frequent Pattern Mining) 基本概念 a. 频繁模式(frequent pattern)是频繁地出现在数据集中的模式(如项集.子序列或子结构). 例如: i. 频繁 ...

  7. 数据挖掘(一)频繁模式挖掘算法的实现和对比

    注:参考多篇CSDN文章所得 一.实验内容 巩固频繁模式挖掘的基本算法原理及特点,设计程序,基于不同特征的数据集比较不同方法的优缺点,并基于算法原理和特点分析造成这种现象的原因. 二.算法原理 1 A ...

  8. 关联规则(挖掘),数据关联(融合)

    3月9日07:49|  新浪博客|  来源:时空交互|  查看原文> 关联式规则 关联式规则(Association Rules, AR),又称关联规则,是数据挖掘的一个重要课题,用于从大量数据 ...

  9. FP-Tree频繁模式树算法

    参考资料:http://blog.csdn.net/sealyao/article/details/6460578 更多数据挖掘算法:https://github.com/linyiqun/DataM ...

最新文章

  1. 苹果7支持快充吗_支持苹果20W+华为22.5W快充,倍思发布迷你数显快充移动电源...
  2. hdu 1593(数学)
  3. gcvt字符串转换函数应用实例
  4. drawable canvas使用
  5. 阿里取消周报!但普通数据人的周报、月报焦虑,谁来拯救?
  6. 编程面试问题越难越好?!
  7. 删除Chrome自动完成功能的输入背景色?
  8. python怎么读取api接口_python 获取api接口
  9. linux中支持gb18030的输入法,教程:智能的陈巧五笔输入法linux v1.1最新版本
  10. OpenSees二次开发实例01
  11. Linux学习之计划任务(at、batch、crontab)篇
  12. 转载:HTTP调试工具:Fiddler的使用方法介绍
  13. android7.1索尼,Xperia 1
  14. 线性回归实战---Abalone鲍鱼年龄预测
  15. 小白学 Python 爬虫(26):为啥上海二手房你都买不起
  16. 政府大数据的资源库建设
  17. iphone 6plus 输出的屏幕尺寸 375 ,667的原因 - 简书
  18. SLF4J中的桥接器与源码剖析
  19. web自动登录方法汇总(转自老大指导)
  20. 现在学习软件测试好找工作吗

热门文章

  1. iOS convertRect:view.frame toView: x 异常翻倍?
  2. IDEA中配置Python环境并运行
  3. 关于Web面试的基础知识点--Javascript(一)
  4. BZOJ1861: [Zjoi2006]Book 书架
  5. HTML 5 服务器发送事件
  6. PLSQL Developer学习笔记
  7. MongoDB 所支持的数据类型 创建和删除集合 创建和删除数据库
  8. 内联函数 error LNK2001: unresolved external symbol
  9. C++中链表的一些操作
  10. 第五章:几个重要技术总结