基于DHP的频繁遍历路径挖掘算法-天津大学计算机学院

维普资讯

第25卷第 5期 杭 州 电子 科 技 大 学 学报 Vo1.25.No.5

2005年 10月 Jounud of I-la~ hou 1)ius~zi U~fiversib" Oct.2005

基于DHP的频繁遍历路径挖掘算法

王涛伟 ,周必水2

(1.浙江万里学院计算机系,浙江 宁波 315100;

2.杭州电子科技大学 计算机学院,浙江杭州310018)

摘要:大量的候选项集是挖掘路径遍历模式中的主要问题。针对这个问题 ,提出了基于 DHP算法

的路径遍历算法,通过使用哈希技术在产生侯选项集时删除不满足条件的项 目,这种方法特别是

在产生候选2一项目时效率非常高,这样很好的解决了整个处理过程的性能瓶颈。另外,使用了整

枝技术使事务数据库的大小在每次扫描后迅速减小。实验结果表明,基于DHP的频繁遍历路径算

法在挖掘频繁项 目集时是有效的。

关键词:频繁遍历路径;数据挖掘;序列模式;关联规则 ;候选项 目集;整枝技术

中图分类号:TP311 文献标识码:A 文章编号:1001—9146(2005)05一O06O一04

0 引 言

频繁遍历路径挖掘是Web数据挖掘领域中重要的研究内容,它与关联规则发现频繁项集之间有一

个显著的区别:在频繁遍历路径中,页面是有序的,而关联规则的频繁项集没有顺序,因此频繁遍历路径

挖掘属于序列模式挖掘。目前,已经有两类主要的序列模式挖掘算法:一种是候选模式生成一测试方

法。这些方法都应用了Apfiofi算法性质 j:频繁模式的所有非空子集都是频繁的。另一种是模式扩展

的方法。该方法并不应用 Apriori性质,而是直接扩展已经发现的序列模式。该方法采用分而治之的原

理,反复的把数据库投射到比它小的数据集里,而后在此较小的数据集上进行模式扩展的序列挖掘_2]。

文章的算法属于第一种。

1 算法的描述

利用关联规则中的Apriori算法,每次循环中都用到频繁k一项 目Lk来构造侯选(k+1)一项 目Ck+l

(通过Lk∞Lk),然后扫描数据库D,为 Ck+。中每个(k+1)一项 目计算支持度,之后确定Lk+l。Ck中项 目

越多,用于计算 Lk的花费也越多,因此直接利用 Apriori算法效率太低。Apriori算法中, 中项 目的数

量为lc2l=P2¨-,因此lC2l非常大,也就是说从C2中产生L2时为lC2l中每个项 目计算支持度的开销非

常大。利用DHP算法I3』的主要思想,使用哈希技术在产生侯选项 目时过滤掉不满足条件的项 目,另外

算法对事务数据库进行修剪处理,以减少下一循环扫描数据库时间。算法描述如下(事务 t已是用户会

话中找出的最大向前项 目序列)。

l喻希表 的昕打汁数器清零;//第一部分

刈所订 1『j.{务 l∈1)dl】I fl

时 t巾所仃n I一引门nf算fU脱次数 c-.(;I)ltlll:

刈 l巾所彳丁n72一引川x(1I,

t!hf)++.Jfl成If^希表H;// [h(x)] ÷1,lI希 的人ll汁数似

收稿Et期:2005—03—04

作者简介:王涛伟 (1977一),男,浙江宁波人,讲师,数据挖掘

维普资讯

第5期 王涛伟等:基于DHP的频繁遍历路径挖掘算法 6l

end

Ll=IcEClIc.count>/min.supl;//min.sup为用户给定的最小支持度

k=2;Dk=D;//第二部分

while(I{xlHk[x]mln.sup}

使用计算机频繁使用的算法,基于DHP的频繁遍历路径挖掘算法-天津大学计算机学院.PDF...相关推荐

  1. 路径规划算法:基于灰狼优化(GWO)的路径规划算法- 附代码

    路径规划算法:基于灰狼优化(GWO)的路径规划算法- 附代码 文章目录 路径规划算法:基于灰狼优化(GWO)的路径规划算法- 附代码 1.算法原理 1.1 环境设定 1.2 约束条件 1.3 适应度函 ...

  2. 基于强化学习的智能机器人路径规划算法研究(附代码)

    目录 一.摘要 二.路径规划技术的研究进展 1.研究现状 2.算法分类 2.1 全局路径规划算法 2.2 局部路径规划算法 三.本文采用的路径规划算法--强化学习 1. 概念 2. 与其他机器学习方式 ...

  3. 路径规划算法:基于入侵杂草优化的路径规划算法- 附代码

    路径规划算法:基于入侵杂草优化的路径规划算法- 附代码 文章目录 路径规划算法:基于入侵杂草优化的路径规划算法- 附代码 1.算法原理 1.1 环境设定 1.2 约束条件 1.3 适应度函数 2.算法 ...

  4. 同伦算法matlab程序,一种新的基于Matlab环境的同伦路径跟踪算法

    MATLAB 第28卷第5期2007年5月 东北大学学报(自然科学版) V01.28.No.5 JournalofNortheasternUniversity(NaturalScience) May ...

  5. 如何使用Python+Django+Mysql开发个性化职位推荐系统 招聘网站推荐系统 基于用户、项目的协同过滤推荐算法 基于内容、聚类、关联规则推荐算法WebPositionCFRSPython

    如何使用Python+Django+Mysql开发个性化职位推荐系统 招聘网站推荐系统 基于用户.项目的协同过滤推荐算法 基于内容.聚类.关联规则推荐算法WebPositionCFRSPython 一 ...

  6. 计算机视觉算法——基于深度学习的高精地图算法(HDMapNet / VectorMapNet / MapTR / VectorNet)

    计算机视觉算法--基于深度学习的高精地图算法(HDMapNet / VectorMapNet / MapTR / VectorNet) 计算机视觉算法--基于深度学习的高精地图算法(HDMapNet ...

  7. [运动规划算法]基于似然场的快速避障算法

    文章目录 一.简介 二.原理 1. 问题描述 2. 概率模型 3. 局部概率 4. 全局概率 5. 方法实现 三.项目演示 参考 一.简介 这是一种在复杂环境中实现快速自主飞行的规划方法.通常,在复杂 ...

  8. matlab对于椭圆检测的算法,基于弧段组合的椭圆检测算法研究

    摘要: 椭圆检测是图像匹配与识别,图像理解与分析,计算机视觉等领域的一项基础任务,许多研究人员对椭圆检测问题进行了深入研究,提出了多种检测算法.它们大致可以分为三类:投票/聚类,最优化,基于弧段的方法 ...

  9. 麦克风阵列定位matlab算法,基于麦克风阵列的MUSIC声源定位算法研究

    摘要: 作为阵列信号处理领域的一个分支,麦克风阵列已广泛应用于电视会议.语音增强及识别等方面.声源定位是麦克风阵列进行空间滤波的重要基础,近年来发展迅速.基于阵列的定位算法可以分为超分辨算法和非超分辨 ...

最新文章

  1. Nginx文件描述符泄露?浅析FD_CLOEXEC文件描述符标志
  2. OS_FLAG.C(1)
  3. Eclipse常用快捷
  4. 内网突破SSL嗅探的探究
  5. 「递归」第3集 | 向善的信念,让技术自带光芒
  6. [51 nod 123] 最大公约数之和 V3(杜教筛)
  7. mysql5.5从零开始_【MySQL函数】MySQL 5.5从零开始学第六章
  8. NLP之路-一点小语言工具函数
  9. 2108. 找出数组中的第一个回文字符串
  10. 元素定位-XPATH定位方法总结
  11. 多模态关键任务与应用综述(从表示到融合,从协同学习到关键技术梳理)
  12. 第8章 面向对象高级编程与网络编程
  13. 二阶系统响应指标图_二阶系统瞬态响应和稳定性实验报告
  14. tomcat配置ssl证书
  15. 计算机主机箱的类型,电脑机箱尺寸分类
  16. 计算机系统与配置要求,电脑系统以及Adobe Audition的版本配置要求-喜马拉雅
  17. 有这两款手机拍照扫描软件,去哪都可以轻松使用
  18. 数据库表结构导出(编写数据库设计文档)
  19. html鼠标移动距离,简单的鼠标移动元素近大远小效果
  20. Intellij idea 报错:Error : java 不支持发行版本5

热门文章

  1. 数据库设计之反规范化
  2. java考试系统中自动组卷功能的核心逻辑实现
  3. PHP序列化_serialize_格式详解
  4. RocketMQ源码分析(十三)之ConsumeQueue
  5. 让早餐,更新鲜,只要一瓶零度果坊早橙好NFC果汁
  6. 算法总结——异或运算
  7. Java实现 LeetCode 312 戳气球
  8. [小O地图-数据] 下载世界范围的OSM地图数据
  9. 基于WPS的Word最佳实践系列(给标题添加水平分割线)
  10. 【KLEE执行时生成的标准全局文件】