使用计算机频繁使用的算法,基于DHP的频繁遍历路径挖掘算法-天津大学计算机学院.PDF...
基于DHP的频繁遍历路径挖掘算法-天津大学计算机学院
维普资讯
第25卷第 5期 杭 州 电子 科 技 大 学 学报 Vo1.25.No.5
2005年 10月 Jounud of I-la~ hou 1)ius~zi U~fiversib" Oct.2005
基于DHP的频繁遍历路径挖掘算法
王涛伟 ,周必水2
(1.浙江万里学院计算机系,浙江 宁波 315100;
2.杭州电子科技大学 计算机学院,浙江杭州310018)
摘要:大量的候选项集是挖掘路径遍历模式中的主要问题。针对这个问题 ,提出了基于 DHP算法
的路径遍历算法,通过使用哈希技术在产生侯选项集时删除不满足条件的项 目,这种方法特别是
在产生候选2一项目时效率非常高,这样很好的解决了整个处理过程的性能瓶颈。另外,使用了整
枝技术使事务数据库的大小在每次扫描后迅速减小。实验结果表明,基于DHP的频繁遍历路径算
法在挖掘频繁项 目集时是有效的。
关键词:频繁遍历路径;数据挖掘;序列模式;关联规则 ;候选项 目集;整枝技术
中图分类号:TP311 文献标识码:A 文章编号:1001—9146(2005)05一O06O一04
0 引 言
频繁遍历路径挖掘是Web数据挖掘领域中重要的研究内容,它与关联规则发现频繁项集之间有一
个显著的区别:在频繁遍历路径中,页面是有序的,而关联规则的频繁项集没有顺序,因此频繁遍历路径
挖掘属于序列模式挖掘。目前,已经有两类主要的序列模式挖掘算法:一种是候选模式生成一测试方
法。这些方法都应用了Apfiofi算法性质 j:频繁模式的所有非空子集都是频繁的。另一种是模式扩展
的方法。该方法并不应用 Apriori性质,而是直接扩展已经发现的序列模式。该方法采用分而治之的原
理,反复的把数据库投射到比它小的数据集里,而后在此较小的数据集上进行模式扩展的序列挖掘_2]。
文章的算法属于第一种。
1 算法的描述
利用关联规则中的Apriori算法,每次循环中都用到频繁k一项 目Lk来构造侯选(k+1)一项 目Ck+l
(通过Lk∞Lk),然后扫描数据库D,为 Ck+。中每个(k+1)一项 目计算支持度,之后确定Lk+l。Ck中项 目
越多,用于计算 Lk的花费也越多,因此直接利用 Apriori算法效率太低。Apriori算法中, 中项 目的数
量为lc2l=P2¨-,因此lC2l非常大,也就是说从C2中产生L2时为lC2l中每个项 目计算支持度的开销非
常大。利用DHP算法I3』的主要思想,使用哈希技术在产生侯选项 目时过滤掉不满足条件的项 目,另外
算法对事务数据库进行修剪处理,以减少下一循环扫描数据库时间。算法描述如下(事务 t已是用户会
话中找出的最大向前项 目序列)。
l喻希表 的昕打汁数器清零;//第一部分
刈所订 1『j.{务 l∈1)dl】I fl
时 t巾所仃n I一引门nf算fU脱次数 c-.(;I)ltlll:
刈 l巾所彳丁n72一引川x(1I,
t!hf)++.Jfl成If^希表H;// [h(x)] ÷1,lI希 的人ll汁数似
收稿Et期:2005—03—04
作者简介:王涛伟 (1977一),男,浙江宁波人,讲师,数据挖掘
维普资讯
第5期 王涛伟等:基于DHP的频繁遍历路径挖掘算法 6l
end
Ll=IcEClIc.count>/min.supl;//min.sup为用户给定的最小支持度
k=2;Dk=D;//第二部分
while(I{xlHk[x]mln.sup}
使用计算机频繁使用的算法,基于DHP的频繁遍历路径挖掘算法-天津大学计算机学院.PDF...相关推荐
- 路径规划算法:基于灰狼优化(GWO)的路径规划算法- 附代码
路径规划算法:基于灰狼优化(GWO)的路径规划算法- 附代码 文章目录 路径规划算法:基于灰狼优化(GWO)的路径规划算法- 附代码 1.算法原理 1.1 环境设定 1.2 约束条件 1.3 适应度函 ...
- 基于强化学习的智能机器人路径规划算法研究(附代码)
目录 一.摘要 二.路径规划技术的研究进展 1.研究现状 2.算法分类 2.1 全局路径规划算法 2.2 局部路径规划算法 三.本文采用的路径规划算法--强化学习 1. 概念 2. 与其他机器学习方式 ...
- 路径规划算法:基于入侵杂草优化的路径规划算法- 附代码
路径规划算法:基于入侵杂草优化的路径规划算法- 附代码 文章目录 路径规划算法:基于入侵杂草优化的路径规划算法- 附代码 1.算法原理 1.1 环境设定 1.2 约束条件 1.3 适应度函数 2.算法 ...
- 同伦算法matlab程序,一种新的基于Matlab环境的同伦路径跟踪算法
MATLAB 第28卷第5期2007年5月 东北大学学报(自然科学版) V01.28.No.5 JournalofNortheasternUniversity(NaturalScience) May ...
- 如何使用Python+Django+Mysql开发个性化职位推荐系统 招聘网站推荐系统 基于用户、项目的协同过滤推荐算法 基于内容、聚类、关联规则推荐算法WebPositionCFRSPython
如何使用Python+Django+Mysql开发个性化职位推荐系统 招聘网站推荐系统 基于用户.项目的协同过滤推荐算法 基于内容.聚类.关联规则推荐算法WebPositionCFRSPython 一 ...
- 计算机视觉算法——基于深度学习的高精地图算法(HDMapNet / VectorMapNet / MapTR / VectorNet)
计算机视觉算法--基于深度学习的高精地图算法(HDMapNet / VectorMapNet / MapTR / VectorNet) 计算机视觉算法--基于深度学习的高精地图算法(HDMapNet ...
- [运动规划算法]基于似然场的快速避障算法
文章目录 一.简介 二.原理 1. 问题描述 2. 概率模型 3. 局部概率 4. 全局概率 5. 方法实现 三.项目演示 参考 一.简介 这是一种在复杂环境中实现快速自主飞行的规划方法.通常,在复杂 ...
- matlab对于椭圆检测的算法,基于弧段组合的椭圆检测算法研究
摘要: 椭圆检测是图像匹配与识别,图像理解与分析,计算机视觉等领域的一项基础任务,许多研究人员对椭圆检测问题进行了深入研究,提出了多种检测算法.它们大致可以分为三类:投票/聚类,最优化,基于弧段的方法 ...
- 麦克风阵列定位matlab算法,基于麦克风阵列的MUSIC声源定位算法研究
摘要: 作为阵列信号处理领域的一个分支,麦克风阵列已广泛应用于电视会议.语音增强及识别等方面.声源定位是麦克风阵列进行空间滤波的重要基础,近年来发展迅速.基于阵列的定位算法可以分为超分辨算法和非超分辨 ...
最新文章
- Nginx文件描述符泄露?浅析FD_CLOEXEC文件描述符标志
- OS_FLAG.C(1)
- Eclipse常用快捷
- 内网突破SSL嗅探的探究
- 「递归」第3集 | 向善的信念,让技术自带光芒
- [51 nod 123] 最大公约数之和 V3(杜教筛)
- mysql5.5从零开始_【MySQL函数】MySQL 5.5从零开始学第六章
- NLP之路-一点小语言工具函数
- 2108. 找出数组中的第一个回文字符串
- 元素定位-XPATH定位方法总结
- 多模态关键任务与应用综述(从表示到融合,从协同学习到关键技术梳理)
- 第8章 面向对象高级编程与网络编程
- 二阶系统响应指标图_二阶系统瞬态响应和稳定性实验报告
- tomcat配置ssl证书
- 计算机主机箱的类型,电脑机箱尺寸分类
- 计算机系统与配置要求,电脑系统以及Adobe Audition的版本配置要求-喜马拉雅
- 有这两款手机拍照扫描软件,去哪都可以轻松使用
- 数据库表结构导出(编写数据库设计文档)
- html鼠标移动距离,简单的鼠标移动元素近大远小效果
- Intellij idea 报错:Error : java 不支持发行版本5