数据挖掘Apriori算法

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。挖掘的原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。

数据挖掘的几种主要形式:

规则挖掘:

如果一个事务中含有X,则该事务中很可能含有Y。具体形式为{X}→{Y},即通常可以描述为:当一个事务中顾客购买了一样东西{啤酒}(这里X=“啤酒”)则很可能他同时还购买了{尿布}(这里Y= "尿布"),这就是关联规则。

Apriori算法描述

Apriori算法采用的方法:首先产生频繁1项集L1,然后用L1经过自连接、剪枝生成L2(频繁2-项集),然后L2有生成L3,依次迭代直到无法生成新的频繁项集为止。然后根据给定的最小可信度,利用生成的频繁项集产生强关联规则。

第一阶段:产生频繁项集 该过程通过以下步骤实现:

(1)所有单独的项都是候选项集C1。任何支持度值比给定的最小支持度小的项都将从候选项集C1中剔除,形成频繁1-项集L1

(2)两个通过自连接形成具有2个项的候选项集。通过再次扫描数据库确定这些候选项的支持度。保留大于之前设定的最小支持度阈值的候选项,形成频繁2-项集。

(3)下一步形成含有3个项的候选项集C3,重复之前的操作直到无法生成新的频繁项集为止。

代码描述

# -*- coding: utf-8 -*-
"""
Apriori exercise.
Created on Fri Nov 27 11:09:03 2015
@author: alexChen
"""
def loadDataSet():'''创建一个用于测试的简单的数据集'''return [ [ 1, 3, 4 ], [ 2, 3, 5 ], [ 1, 2, 3, 5 ], [ 2, 5 ] ]
def createC1( dataSet ):'''构建初始候选项集的列表,即所有候选项集只包含一个元素,C1是大小为1的所有候选项集的集合'''C1 = []for transaction in dataSet:for item in transaction:if [ item ] not in C1:C1.append( [ item ] )C1.sort()return map( frozenset, C1 )
def scanD( D, Ck, minSupport ):'''计算Ck中的项集在数据集合D(记录或者transactions)中的支持度,返回满足最小支持度的项集的集合,和所有项集支持度信息的字典。'''ssCnt = {}for tid in D:# 对于每一条transactionfor can in Ck:# 对于每一个候选项集can,检查是否是transaction的一部分# 即该候选can是否得到transaction的支持if can.issubset( tid ):ssCnt[ can ] = ssCnt.get( can, 0) + 1numItems = float( len( D ) )retList = []supportData = {}for key in ssCnt:# 每个项集的支持度support = ssCnt[ key ] / numItems# 将满足最小支持度的项集,加入retListif support >= minSupport:retList.insert( 0, key )# 汇总支持度数据supportData[ key ] = supportreturn retList, supportData
if __name__ == '__main__':# 导入数据集myDat = loadDataSet()# 构建第一个候选项集列表C1C1 = createC1( myDat )# 构建集合表示的数据集 DD = map( set, myDat )# 选择出支持度不小于0.5 的项集作为频繁项集L, suppData = scanD( D, C1, 0.5 )print u"频繁项集L:", Lprint u"所有候选项集的支持度信息:", suppData# Aprior算法
def aprioriGen( Lk, k ):'''由初始候选项集的集合Lk生成新的生成候选项集,k表示生成的新项集中所含有的元素个数'''retList = []lenLk = len( Lk )for i in range( lenLk ):for j in range( i + 1, lenLk ):L1 = list( Lk[ i ] )[ : k - 2 ];L2 = list( Lk[ j ] )[ : k - 2 ];L1.sort();L2.sort()if L1 == L2:retList.append( Lk[ i ] | Lk[ j ] )return retList
def apriori( dataSet, minSupport = 0.5 ):# 构建初始候选项集C1C1 = createC1( dataSet )# 将dataSet集合化,以满足scanD的格式要求D = map( set, dataSet )# 构建初始的频繁项集,即所有项集只有一个元素L1, suppData = scanD( D, C1, minSupport )L = [ L1 ]# 最初的L1中的每个项集含有一个元素,新生成的# 项集应该含有2个元素,所以 k=2k = 2while ( len( L[ k - 2 ] ) > 0 ):Ck = aprioriGen( L[ k - 2 ], k )Lk, supK = scanD( D, Ck, minSupport )# 将新的项集的支持度数据加入原来的总支持度字典中suppData.update( supK )# 将符合最小支持度要求的项集加入LL.append( Lk )# 新生成的项集中的元素个数应不断增加k += 1# 返回所有满足条件的频繁项集的列表,和所有候选项集的支持度信息return L, suppData

第二阶段:产生关联规则

从事务数据库 D 中挖掘出频繁所有的频繁项集后,就可以比较容易的获得相应的关联规则,即满足可信度> min_conf 的频繁项集产生强关联规则。由于规则是由频繁项集产生,所以每个规则自动满足最小支持度min_sup。使用频繁项集X生成关联规则。

代码描述如下:

# 规则生成与评价
def calcConf( freqSet, H, supportData, brl, minConf=0.7 ):'''计算规则的可信度,返回满足最小可信度的规则。freqSet(frozenset):频繁项集H(frozenset):频繁项集中所有的元素supportData(dic):频繁项集中所有元素的支持度brl(tuple):满足可信度条件的关联规则minConf(float):最小可信度'''prunedH = []for conseq in H:conf = supportData[ freqSet ] / supportData[ freqSet - conseq ]if conf >= minConf:print freqSet - conseq, '-->', conseq, 'conf:', confbrl.append( ( freqSet - conseq, conseq, conf ) )prunedH.append( conseq )return prunedH
def rulesFromConseq( freqSet, H, supportData, brl, minConf=0.7 ):'''对频繁项集中元素超过2的项集进行合并。freqSet(frozenset):频繁项集H(frozenset):频繁项集中的所有元素,即可以出现在规则右部的元素supportData(dict):所有项集的支持度信息brl(tuple):生成的规则'''m = len( H[ 0 ] )# 查看频繁项集是否大到移除大小为 m 的子集if len( freqSet ) > m + 1:Hmp1 = aprioriGen( H, m + 1 )Hmp1 = calcConf( freqSet, Hmp1, supportData, brl, minConf )# 如果不止一条规则满足要求,进一步递归合并if len( Hmp1 ) > 1:rulesFromConseq( freqSet, Hmp1, supportData, brl, minConf )
def generateRules( L, supportData, minConf=0.7 ):'''根据频繁项集和最小可信度生成规则。L(list):存储频繁项集supportData(dict):存储着所有项集(不仅仅是频繁项集)的支持度minConf(float):最小可信度'''bigRuleList = []for i in range( 1, len( L ) ):for freqSet in L[ i ]:# 对于每一个频繁项集的集合freqSetH1 = [ frozenset( [ item ] ) for item in freqSet ]# 如果频繁项集中的元素个数大于2,需要进一步合并if i > 1:rulesFromConseq( freqSet, H1, supportData, bigRuleList, minConf )else:calcConf( freqSet, H1, supportData, bigRuleList, minConf )return bigRuleList

第三阶段,测试:

if __name__ == '__main__':# 导入数据集myDat = loadDataSet()# 选择频繁项集L, suppData = apriori( myDat, 0.5 )rules = generateRules( L, suppData, minConf=0.7 )print 'rules:\n', rules

数据挖掘Apriori算法相关推荐

  1. java实现数据挖掘_数据挖掘Apriori算法的java实现

    对于Apriori算法,Apriori算法是一种挖掘关联规则的频繁项集算法,在很多领域中应用广泛. 它的算法思想是: 1先找到所有的小频繁项集, 2然后做连接步骤,将小频繁项集拼接作为候选集, 3然后 ...

  2. java数据挖掘算法_[转载]干货,基于Java和C++的数据挖掘Apriori算法实现

    Apriori算法实现 Apriori算法的思想还是很容易理解的,实现起来虽然麻烦,但是还是比较容易的.下面是我使用Java语言实现的Apriori算法,实现了AprioriAlgorithm 类,包 ...

  3. 数据挖掘—Apriori算法(Java实现)

    算法描述 (1)扫描全部数据,产生候选1-项集的集合C1: (2)根据最小支持度,由候选1-项集的集合C1产生频繁1-项集的集合L1: (3)对k>1,重复执行步骤(4).(5).(6): (4 ...

  4. 【数据挖掘】关联规则挖掘 Apriori 算法 ( Apriori 算法过程 | Apriori 算法示例 )

    文章目录 一. Apriori 算法过程 二. Apriori 算法示例 参考博客 : [数据挖掘]关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction ...

  5. 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则性质 | 非频繁项集超集性质 | 频繁项集子集性质 | 项集与超集支持度性质 )

    文章目录 一. 非频繁项集超集性质 二. 频繁项集子集性质 三. 项集与超集支持度性质 参考博客 : [数据挖掘]关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Trans ...

  6. 【数据挖掘】关联规则挖掘 Apriori 算法 ( 频繁项集 | 非频繁项集 | 强关联规则 | 弱关联规则 | 发现关联规则 )

    文章目录 一. 频繁项集 二. 非频繁项集 三. 强关联规则 四. 弱关联规则 五. 发现关联规则 参考博客 : [数据挖掘]关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 ...

  7. 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则 | 数据项支持度 | 关联规则支持度 )

    文章目录 一. 关联规则 二. 数据项支持度 三. 关联规则支持度 参考博客 : [数据挖掘]关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 ...

  8. 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 | 项 Item 概念 | 项集 Item Set | 频繁项集 | 示例解析 )

    文章目录 一. 关联规则挖掘简介 二. 数据集 与 事物 ( Transaction ) 概念 三.项 ( Item ) 概念 四.项集 ( Item Set ) 概念 五.频繁项集 六.数据集.事物 ...

  9. 【数据挖掘】数据挖掘算法 组件化思想 示例分析 ( 组件化思想 | Apriori 算法 | K-means 算法 | ID3 算法 )

    文章目录 一. 数据挖掘算法组件化思想 二. Apriori 算法 ( 关联分析算法 ) 三. K-means 算法 ( 聚类分析算法 ) 四. ID3 算法 ( 决策树算法 ) 一. 数据挖掘算法组 ...

最新文章

  1. poj-1284(Primitive Roots)(欧拉函数运用)
  2. 一个有关程序运行时间的小测试
  3. 方舟手游服务器设置文件翻译,方舟生存进化手游界面翻译 方舟生存进化手机版中文对照翻译一览...
  4. Java 操作POI 之复制sheet页
  5. aws实例启动失败_AWS:启动安装了APOC的Neo4j实例
  6. java 切换panel会闪烁_【19期】为什么Java线程没有Running状态?
  7. java定义private_java9开始——接口中可以定义private私有方法
  8. layui左侧三级菜单2.0
  9. java设计模式(2) - 结构型模式
  10. git向码云上提交项目
  11. c++中正则表达式(regex)
  12. 数独1--暴力回溯法(时间超)
  13. CAD看图软件中如何将CAD图纸由天正T20版本转换为T3版本?
  14. sqlite驱动加载失败的解决办法
  15. Fedora 30 将默认启用 DNF-best 模式
  16. 手写数字识别:CNN-AlexNet
  17. 魔方软件测试自学,4 分钟!OpenAI 的机器手学会单手解魔方了,完全自学无需编程...
  18. 量化投资python_量化投资与python
  19. 唯一ID生成算法剖析
  20. 3 万字 + 100 张图带你彻底搞懂 TCP 面试题(强烈建议收藏)

热门文章

  1. node-sass -v 不是内部_奔驰v260领航版的缺点奔驰v级和威霆区别
  2. Spring MVC注解故障追踪记
  3. input常用输入框限制
  4. ansible-playbook如何判断并中断执行
  5. ASP.NET Core MVC/WebAPi如何构建路由?
  6. JAVA获取当前系统时间System.currentTimeMillis()
  7. PLSQL_统计信息系列10_统计信息过旧导致程序出现性能问题
  8. 【转】MFC下用ADO连接SQL SERVER,保存图片,BLOB
  9. [转帖]Mootools源码分析-04 -- Array
  10. Seam开发环境的搭建