第七章——数据挖掘(2)
一、 关联规则
关联规则是数据库和数据挖掘领域中所发明并被广泛研究的最为重要的模型。关联规则的目标是在数据项目中找出所有的并发关系,这种关系也称为关联。
1.基本概念
关联规则的形式:设1=i,iz...im是一个项目集合,T是一个事务集合,其中每个事务t;是一个项目集合,并满足t;EI,一个关联规则可以表示成如下形式的蕴含关系:X→Y,其中X属于Y,Y属于I且X交Y非空。
2.关联规则强度指标
支持度和置信度是两个常用的衡量关联规则强度的指标关联规则X> Y的支持度是数据库中包含XUY 的事务占全部事务的百分比。它是概率P(XUY),记作 support(X=Y)=P(XUY).
关联规则X→Y的置信度是包含XUY 的事务与包含X的事务数的比值。它是概率P(Y|X),记作 confidence(X=Y)=P(Y|X)。
3.频繁项集
每个属性由多个元素组成,这里的元素称为项,多个项组成的集合称为项集。如果某个项集的支持度大于或等于预先设定的最小支持度阚值,则将这个项集称为频繁项集或大项集,所有的频繁k项集组成的集合通常记为Lk。
二、关联规则挖掘算法
关联规则挖掘算法中,Apriori算法最为著名,其挖掘的过程主要包含两个阶段:第一阶段先从数据集中找出所有的频繁项集,它们的支持度大于等于最小支持度闯值。第二阶段由这些频繁项集产生关联规则,计算它们的置信度,然后保留那些置信度大于等于最小置信度阚值的关联规则。
1.Apriori 算法中候选集合的产生
(1)连接
为了找Lk,通过Lk-1与自己连接产生候选k项集的集合,该候选k项集记为Ck:Lk-1中的两个项集和l2可以执行连接操作loolz的条件是(lk[i]表示项集中的第i个元素)(l1[1]=l2[1])A (L [2]=l2[2])..A (l1[k-2]=12[k-2])(l1[k-1]=l2[k-1])
(2)剪枝
G是Lr的超集,即它的成员可能不是频繁的,但是所有频繁的k项集都在Ck中。因此可以通过扫描数据库并计算每个k项集的支持度来得到Lk。
为了减少计算量,可以利用Apriori性质剪枝,即如果一个k项集中包含的k-1个元素的子集不在Lk-1中,则该候选集不可能是频繁的,可以直接从Ck中删除。
2.Apriori 算法过程
Apriori算法的计算复杂度主要受支持度闯值、项数(维度)、事务数和事务的平均宽度影响。具体算法描述如下:输入:事务数据库D;最小支持度阔值min_sup;最小置信度阔值min_conf。输出:事务数据库D中的所有频繁项目集L和关联规则AR。
3.例子
下面举例说明该算法的规则。
现有一个事务数据库如表所示,找出其所有满足最小支持度计数的关联规则。
表的每一行表示一条交易,共有9行,左边表示顾客ID,右边表示商品ID,为了方便计算,这里给出最小支持度计数为min_sup=2(等于最小支持度为22%)。
首先,扫描数据库,识别所有1项集和它们的支持度计数,将它们称作候选1项集,记作G1,然后选择其支持度大于或等于min_sup的项,将这些项称为频繁1项集,并记作L1。这样就识别了所有的频繁1项集
下面需要做类似的工作,产生所有可能频繁2项集,称作候选2项集,记作C2。这可以通过从L,产生所有可能的2项集来实现。扫描数据库,确定C2中每个项集的支持度,再从Cz中选择那些满足支持度大于或等min_sup的项集,得到Lz。
4.关联规则生成
得到所有的频繁项集后,关联规则就很容易了。对于置信度,可以用下面的公式计算:
条件概率用项集的支持度计数表示,其中support_count(AUB)是包含项集AUB的事务数,support_count(A)是包含项集A的事务数。由此,关联规则可以按以下的步骤产生:
(1)对于每个频繁项集L,产生L的所有非空子集。
(2)对于L 的每个非空子集S,如果P(A|B)≥min_conf(其中min_conf是最小置信度阙值),则输出规则s→(l-s)。
第七章——数据挖掘(2)相关推荐
- 数据挖掘复习笔记第七章——聚类
第七章 聚类 7.1 聚类分析 聚类分析(Cluster analysis),简称聚类(Clustering),是一个把数据对象划分为子集的过程. 簇(Cluster):每一个子集是一个簇 簇内对象相 ...
- 人工智能:第七章 机器学习
第七章机器学习 教学内容:机器学习是继专家系统之后人工智能应用的又一重要研究领域.本章主要介绍机器学习的有关知识及其主要的几种学习方法,并介绍了知识发现的相关内容. 教学重点:机器学习的基本结构.类比 ...
- 《计算传播学导论》读书笔记:第七章 数据新闻
目录 第七章 数据新闻 第一节 产生背景 第二节 理论源流 一.计算驱动的新闻报道 二.可视化驱动的新闻报道 三.制作流程 第三节 实战练习 一.维基解密阿富汗战争日志 二.奥运会数据分析和EChar ...
- 大数据技术原理与应用 概念、存储、处理、分析和应用(林子雨)——第七章 MapReduce
第七章 MapReduce 7.1 概述 7.1.1 分布式并行编程 在过去的一段时间里,CPU 的性能一直遵循着"摩尔定律",大约每隔 18 个月,性能就会翻一番.这意味着不需要 ...
- 中国大学mooc 慕课 管理信息系统(同济大学)第六章 第七章 习题 测试答案
1.以下不属于大数据的4V特征的是 A.Volume B.Variety C.Validity D.Velocity 正确答案:C 2. 以下说法正确的是 A.数据是对事物描述的符号 B.通过一定的技 ...
- 数字图像处理——第七章 小波和多分辨处理
数字图像处理--第七章 小波和多分辨率处理 文章目录 数字图像处理--第七章 小波和多分辨率处理 写在前面 1 多分辨率处理 1.1 图像金字塔 1.2 多尺度和多分辨率的区别 2 小波 2.1 连续 ...
- 现实迷途 第七章 特殊客户
第七章 特殊客户 注:原创作品,请尊重原作者,未经同意,请勿转载,否则追究责任. 江北一般都是上午待在办公室里,搜集信息或整理以前做过的系统,下午才出去站街招客. 站街站了一段时间后,江北有点不想去了 ...
- 《Python数据分析与挖掘实战》一第1章 数据挖掘基础1.1 某知名连锁餐饮企业的困惑...
本节书摘来自华章出版社<Python数据分析与挖掘实战>一书中的第1章,第1.1节,作者 张良均 王路 谭立云 苏剑林,更多章节内容可以访问云栖社区"华章计算机"公众号 ...
- stm32 工业按键检测_「正点原子STM32Mini板资料连载」第七章 按键输入实验
1)实验平台:正点原子STM32mini开发板 2)摘自<正点原子STM32 不完全手册(HAL 库版)>关注官方微信号公众号,获取更多资料:正点原子 第七章 按键输入实验 上一章,我们介 ...
最新文章
- 关于条件随机场的一些补充
- android opencv 书籍,opencv android
- JAVA工程师面试题库
- nodejs 获取url字段
- Linux内核中断底半部处理--工作队列
- 更深的编码器+更浅的解码器=更快的自回归模型
- MS SQL Server2008大数、小数转varchar
- 【Spark工作原理】Spark任务调度理解
- 数据库数据类型和占用字节数对比
- 为什么C语言简洁灵活方便,C语言语法简洁紧凑使用方便灵活具有丰富的运算.ppt...
- javascript高级编程(javascript高级编程第四版 pdf)
- RedHat7安装yum并下载gcc
- 分享39个大数据可视化工具(数据分析必备)
- 网页复制的文本粘贴到Word中有背景色要怎么去掉
- mysql占用内存过高_mysql数据库占用内存过高解决办法
- AMBER免费申请流程
- 别人放假去旅游,你却在家搞学习?
- Oracle数据库网络详解
- ROS人机交互软件开发
- 用代码写一个表白biu小心心
热门文章
- java学习笔记——springmvc 之 数据自定义转换器 数据格式化 JSR303数据校验返回与接收JSON(@RequestBody 和 @ResponseBody)
- taobao.top.oaid.client.decrypt( 端侧OAID解密 )
- 燕十八mysql笔记_学习笔记2..燕十八老师公益课堂
- 20221026使用搜狗翻译在线翻译英文文档的评测
- 分布式--CAP定理
- 准备使用Office 365中国版--购买
- 标准c语言局域网文件传输,winsocket局域网文件传输系统源代码(C语言)+winsocket
- wayland与linux_Linux最让人叹息的地方
- ThingJS官方案例(四):快速应用3D场景下的模拟导航能力
- input框不能输入的几种方式