关联规则增量更新算法——FUP算法
一、背景介绍
关联规则( Association rule)概念最初由Agrawal提出,是数据挖掘的一个重要研究领域, 其目的是发现数据集中有用的频繁模式。
静态关联规则挖掘,是在固定数据集和支持度下,发现数据集中的频繁项集,如 Apriori、FP-Growth、Ecalt等。现实问题中,多数时候,支持度和数据集是会发生变化的,Cheung提出了FUP (Fast UPdate)算法,主要针对数据集增大的情况,FUP算法是第一个增量关联规则挖掘算法。
二、相关定义
数据集DB = {T1,T2,T3,…,Tn},数据集的大小N = |DB|,Ti是其中一条事务,I = {I1,I2,…,Im}是事务的项集,Ti是I的子集。项集 X,Y( X,Y是I的子集) 且 X∩Y = Φ, X=〉Y 为关联规则. X在数据集中出现的次数为 count( X) ,其支持度为: support( X)= count( X) /D ,对于最小支持度 minsup, 若support ( X) ≥minsup,称为频繁项.
增量关联规则挖掘是指数据集变化或者支持度变化时的关联规则挖掘。数据集增加时新增数据集为db,增量数据集的大小d = |db|
频繁项集挖掘的重要性质:频繁项集的非空子集也是频繁项集,非频繁项集的超集也是非频繁项集。
三、算法描述
(1)输入
DB 原数据集;
L k 为 DB 上的 k 项集;
db 新增数据集;
s支持度阈值
(2)输出
DB + db 上的频繁项集 L’ k
(3)算法
a)频繁1项集挖掘
扫描 db,获得 db 上的候选集 C; 对原 1 项集在 DB + db的频繁项加到 L’1 中; 扫描 DB,统计 C 在 DB 上的支持度, 频繁项加入到 L’1 中,C中的非频繁项加入到P中,扫描事务数据库时,从所有事物数据中将在P中的项移 除(减少扫描数据的大小),返回频繁1项集L’1。
b)频繁2项集挖掘(同理:频繁多项集挖掘)
对原频繁2项集中的频繁项,若其子集属于L1 – L’1,则直接淘汰,扫描db,统计将L2中剩余的项集在DB+db中任是频繁项集的部分加入到L’2。C2由L’1规约得到,去掉和L2中重复的项,剩下的项集统计在db中支持度,过 滤掉不可能成为频繁项集的部分,扫描DB,将新增的频繁项集加入到L’2中,非频繁项集加入到p中,过滤事务数据中属于p的项。依次挖掘,直到找到所有频繁项集即可。
四、例子
D = 1000 d = 100 s = 3%。I1,12,I3, I4 是事务的项.
I1,12是频繁1项集
I1.supportD = 32 I2.supportD = 31
I3.supporitD= 28
扫描db
I1.supportd = 4 I2.supportd = 1
I3.supportd = 6 I4.supportd = 2
I1.supportUD = 36 >1100*3% I2.supportUD = 32 < 1100 * 3 %
I1加入到L’1中
I3、I4不在L1中,I3.supportd = 6>1003% I4.supportd = 2<1003%
I3加入到C1中,I4加入到P中
扫描DB(过滤掉P中的非频繁项集)
I3.supportUD = 34 >1100*3% I3加入到L’1中
输出L’1 ={ I1 ,I3}
原文:http://www.cnblogs.com/ouym/p/6101745.html
关联规则增量更新算法——FUP算法相关推荐
- kettle spoon判断增量更新_【论文推荐】张斌等:基于改进 SOINN 算法的恶意软件增量检测方法...
基于改进SOINN算法的恶意软件增量检测方法 张斌1,2, 李立勋1,2, 董书琴1,2 1 信息工程大学,河南 郑州 450001 2 河南省信息安全重点实验室,河南 郑州 450001 摘要:针对 ...
- 手机腾讯网mt2.0增量更新算法优化小记
为什么80%的码农都做不了架构师?>>> 手机腾讯网mt2.0目前已经应用在线上案例,在使用的过程中,为了提高增量更新的效率,我们使用编辑距离算法来替代原来的chunk算法,在 ...
- bsdiff算法c语言实现,iOS 使用bsdiff进行资源文件增量更新(bsdiff / bspatch)
bsdiff介绍: bsdiff是一种二级制差分工具,由bsdiff与bspatch组成, 将oldfile与newfile做二进制数据差分(bsdiff操作),得到更新的部分(patch文件),再与 ...
- 关联规则—频繁项集Apriori算法
转载地址:http://liyonghui160com.iteye.com/blog/2080531 一.前言 频繁模式和对应的关联或相关规则在一定程度上刻画了属性条件与类标号之间的有趣联系,因此将关 ...
- 数据追加用什么函数_RL用算法发现算法:DeepMind 数据驱动「价值函数」自我更新,14款Atari游戏完虐人类!...
[新智元导读]击败卡斯帕罗夫的「深蓝」并不是真正的人工智能,它过度依赖了人类设计的规则,而最近DeepMind的一项深度强化学习新研究表明,不用人工介入,完全数据驱动,算法自己就能发现算法. 「深蓝」 ...
- 从啤酒和尿布讲关联规则,大数据集处理算法Apriori以及改进的PCY算法
本文将讲解关联规则的相关概念.处理相关规则的一般算法.改进的大数据处理关联规则的Apriori算法以及进一步优化的PCY算法. 啤酒和尿布的故事已经广为人晓.很多年轻的父亲买尿布的时候会顺便为自己买一 ...
- 关联规则(一)Apriori算法
此篇文章转自 http://blog.sina.com.cn/s/blog_6a17628d0100v83b.html 个人觉得比课本上讲的更通俗易懂! 1. 挖掘关联规则 1.1 什么是关联规 ...
- 【数据挖掘实验】关联规则——CARMA算法和AprioriAll算法
一.实验项目名称: 关联规则--CARMA算法和AprioriAll算法 二.实验目的与要求: 在软件方面:会用Clementine软件进行序列关联规则分析. 在理论方面:CARMA算法和Aprior ...
- Apriori算法简介---关联规则的频繁项集算法
由啤酒和尿布引出: 在一家超市中,人们发现了一个特别有趣的现象:尿布与啤酒这两种风马牛不相及的商品居然摆在一起.但这一奇怪的举措居然使尿布和啤酒的稍量大幅增加了.这可不是一个笑话,而是一直被商家所津津 ...
- AT32F435 定时器Time1实现 实时更新时间(万年历算法)
一.项目实验的内容 1.从RTC中获取时间,然后利用定时器,定时一段时间去更新时间. 这个更新时间的算法:本人采用的是万年历算法的思想实现的. 2.具体难点:需要判断是否是闰年,闰年与平年的天数不一样 ...
最新文章
- 形状相似的物品_废弃物品在体育课中的再利用
- 康奈尔ECE MEng项目拒信+1 哈哈哈
- jQuery ajax使用方法
- 使用python制作二维码
- 解决ora-00054 Oracle锁表问题
- Java微信公众号开发梳理
- css 列表属性详细总结
- _tcstoul() 使用
- java 学习资料总结
- 利用记事本编写html代码和word实现A4信笺纸(信签纸)电子版的两种设计法
- 大学计算机组织部面试问题及答案,组织部面试问题及答案(30页)-原创力文档...
- 调用钉钉API发送消息通知给个人或部门 ,钉钉后台
- 某精英枪战游戏辅助脚本加密破解
- Visual Assist X助手的一些使用技巧和快捷键
- 【初赛】计算机操作系统
- Java大对象类型的Hibernate映射
- 表值函数,标量值函数详解
- 超详细的flex弹性布局+实例分析
- 4万亿计划后遗症:三四线城市土地出让过剩成空城
- [Linux运维基础]全家桶详解!Linux中RPM包、wget下载、YUM安装、tar包、zip等包管理方式区别与参数详解,附wget下载源码包编译安装方法
热门文章
- 用python处理文本数据(5)
- 商业数据分析--思路总结
- 陈家骏程序设计教程用c 语言编程答案,陈家骏程序设计教程用c 语言编程答案...
- NIOS 2 软核中EPCS配置芯片的存储操作
- 费用分摊分配用法(KSU5/KSV5/KB21N/KB11N)
- log怎么用计算机,手机计算器log怎么用
- Windows 实时语音转文字|免费语音视频翻译转文字|语音会议记录方案
- 企业微信端开启debug模式
- 小程序 背景图 repeat_小魔女诺贝3D射击/中文 | 电脑游戏
- 读取npy格式的文件