Apriori算法基本概念:

  1. 关联规则:可以表示为一个蕴含式R:X==>Y,其中X&Y为空集。关联规则的含义是,如果X发生,那么Y很可能也会发生。

  2. 关联分析或者关联规则学习:从大规模数据中寻找物品之间隐含的关系,从而实现某种意义上的预测。例如,捡到鼠标垫的幸运者3个月内是否有可能购买笔记本电脑;正在浏览某商品的用户还可能对什么商品感兴趣;一个特别爱吃炒花生的人喜欢喝酒的可能性有多大。

  3. 项集:包含若干物品或项目的集合。

  4. 频繁项集:经常一起出现的物品的集合。如果某个项集是频繁的,那么它的所有子集都是频繁的;如果某个项集不是频繁的,那么它的所有超集都不是频繁的。这一点是避免项集数量过多的重要基础,使得快速计算频繁项集成为可能。

  5. 支持度:一个项集的支持度是指包含该项集的记录数量在整个数据集中所占的比例。对于某条关联规则A==>B,支持度是指项集A|B的支持度,也就是同时包含A和B的记录的数量与记录总数量的比。

  6. 置信度:用来表示某条规则可信度的大小,用来检验一个推测是否靠谱。对于某条关联规则A==>B,置信度是指项集A|B的支持度与项集A的支持度的比值。

  7. 如果某条关联规则不满足最小置信度要求,那么该规则的所有子集也不会满足最小置信度。根据这一点可以减少要测试的规则数量。

  8. 强关联规则:同时满足最小支持度和最小置信度的关联规则。

  9. 根据不同的支持度和置信度阈值设置,关联规则分析的结果会有所不同。

问题描述:

已知一些演员参演电影的信息,如下图所示,获取这些存储在Excel文件中的数据,查找关系较好的演员二人组合,也就是频繁2项集。

参考代码(使用Apriori算法的频繁项集搜索方法):

运行结果(可以调整代码倒数第三行的参数0.4,观察对结果的影响):

温馨提示

进入公众号,通过菜单“最新资源”==>“历史文章”可以快速查看分专题的文章列表,通过“最新资源”==>“微课专区”可以观看Python微课,通过“最新资源”==>“培训动态”可以查看近期Python培训安排,通过“最新资源”==>“教学资源”可以查看Python教学资源。

--------董付国老师Python系列图书--------

1)《Python程序设计(第2版)》清华大学出版社(2018年8月第9次印刷)https://item.jd.com/11949168.html

2)《Python可以这样学》清华大学出版社(2018年7月第6次印刷)(本书已在台湾发行繁体版)https://item.jd.com/12040511.html

3)《Python程序设计基础(第2版)》清华大学出版社(2018年9月第6次印刷)https://item.jd.com/12319738.html

4)《中学生可以这样学Python》清华大学出版社(2018年9月第3次印刷)https://item.jd.com/12258900.html

5)《Python程序设计开发宝典》清华大学出版社(2018年2月第3次印刷)https://item.jd.com/12143483.html

6)《玩转Python轻松过二级》清华大学出版社(2018年7月第3次印刷)https://item.jd.com/12361144.html

7)《Python程序设计基础与应用》机械工业出版社(2018年9月第1次印刷)https://item.jd.com/12433472.html?dist=jd

8)《Python程序设计实验指导书》清华大学出版社(预计2019年1月出版)

9)《Python编程基础与案例集锦(中学版)》电子工业出版社(预计2019年2月出版)

董老师127课免费视频地址: https://pan.baidu.com/s/1jJeAs8Q 密码: px59

非计算机专业《Python程序设计基础》教学参考大纲

计算机相关专业“Python程序设计”教学大纲(参考)

《Python程序设计》实验指导书(30个实验)

《Python程序设计基础与应用》课后习题答案

系列教学PPT:

1900页Python系列PPT分享一:基础知识(106页)

1900页Python系列PPT分享二:Python序列(列表、元组、字典、集合)(154页)

1900页Python系列PPT分享三:选择与循环结构语法及案例(96页)

1900页Python系列PPT分享四:字符串与正则表达式(109页)

1900页Python系列PPT分享五:函数设计与应用(134页)

1900页Python系列PPT分享六:面向对象程序设计(86页)

1900页Python系列PPT分享七:文件操作(132页)

1900页Python系列PPT分享八:异常处理结构与程序调试、测试(70页)

报告PPT(163页):基于Python语言的课程群建设探讨与实践

报告PPT(123页):Python编程基础精要

2000页Python系列PPT分享九:(GUI编程)(122页)

Python实验项目1例:使用进程池统计指定范围内素数的个数

(PPT)Python程序设计课程教学内容组织与教学方法实践

Python使用Apriori算法查找关系密切的演员组合相关推荐

  1. Python使用超高效算法查找所有类似123-45-67+89=100的组合

    问题描述:在123456789这9个数字中间插入任意多个+和-的组合,使得表达式的值为100,输出所有符合条件的表达式. 昨天发了一个暴力测试的方法来解决问题,详见Python查找所有类似于123-4 ...

  2. python实现Apriori算法

    ★ 关联分析: 从大规模数据集中寻找物品间的隐含关系被称作关联分析.而寻找物品的不同组合是一项十分耗时的任务,所需的计算代价很高.Apriori算法正是来解决这一问题. 物品之间的关系一般可以有两种形 ...

  3. python关联规则apriori算法_Python --深入浅出Apriori关联分析算法(二) Apriori关联规则实战...

    上一篇我们讲了关联分析的几个概念,支持度,置信度,提升度.以及如何利用Apriori算法高效地根据物品的支持度找出所有物品的频繁项集. 这次呢,我们会在上次的基础上,讲讲如何分析物品的关联规则得出关联 ...

  4. python apriori_python apriori算法代码怎么实现

    展开全部 class Apriori(object): def __init__(self, filename, min_support, item_start, item_end): self.fi ...

  5. Python使用Apriori算法分析导演请某演员后还会请哪个演员

    前导课程: Python使用Apriori算法查找关系密切的演员组合 技术要点: 1)根据演员关系以及常见组合,分析某导演请了某个演员之后还可能会请哪个演员参演. 可以继续的工作: 多级关联规则,例如 ...

  6. Apriori 算法原理以及python实现详解

    Apriori 算法原理以及python实现 ​ Apriori算法是第一个关联规则挖掘算法,也是最经典的算法.它利用逐层搜索的迭代方法找出数据库中项集的关系,以形成规则,其过程由连接(类矩阵运算)与 ...

  7. [数据挖掘] 关联规则 Apriori算法实现到PFP(paralled frequent pattern)算法

    数据挖掘--关联规则与Apriori算法 1. 关联分析(Association analysis) 理解: 2. 相关概念 3. Apriori算法查找频繁项集 3.1 Apriori算法的原理: ...

  8. Apriori算法原理

    实验环境 python 3.6.5 jupyter [原理]Apriori算法原理 Apriori算法是一种用于关联规则挖掘的代表性算法.从本节开始,我们已经进入了机器学习和数据挖掘相交叉的地带. 数 ...

  9. 挖掘频繁模式、关联和Apriori算法

    挖掘频繁模式.关联和Apriori算法 1. 引入 1.1 基本概念 频繁模式:频繁出现在数据集中的模式 频繁模式挖掘:获取到给定数据集中反复出现的联系 注:模式其实可以理解为,你在淘宝购物,你的购物 ...

最新文章

  1. 挡d挡切换_吉行贴士 | 从N-D换挡,就是如此轻松
  2. 双车组三轮图像处理总结:18cm三轮摄像头图像处理
  3. 解读“中国数字人民币的研发进展白皮书“
  4. 使用pip安装python库的几种方式,解决pip安装python库慢的问题
  5. GDCM:改变dcm文件的PrivateTag测试程序
  6. mysql数据库基本操作总结与归纳
  7. ocLazyLoad angular 按需加载
  8. 服务器不显示内存条,服务器检测不到内存条
  9. Android抓包方法(一) 之Fiddler代理
  10. 一种基于DCNN模型的云检测方法介绍
  11. 程序员提升编码技能的秘密
  12. pmp 第六版 模拟卷2疑难问题
  13. ssm员工考勤签到请假管理系统 idea maven
  14. java 传智播客 毕向东_传智播客,毕向东Java详细基础教程下载
  15. 易语言取DOS执行结果
  16. 微信小程序云开发联表查询【聚合】
  17. 动物识别系统 python实现+UI
  18. linux域名通过代理,Haproxy根据域名匹配后端服务器
  19. 【1044】判断是否为两位数
  20. 在HTML网页中书写JavaScript

热门文章

  1. 大小文件服务器区别,在提供静态包时,观察到Nginx和Express服务器之间文件大小的差异...
  2. PHP更新小程序,微信小程序Tab页切换更新数据详细介绍
  3. 7价 半导体掺杂_模电总结第一章:常用半导体器件
  4. vim 配置_一步一步配置vim(4)--与latex进行实时显示
  5. 改进的有效边表算法_优硕微展 | 张和慧:基于邻域保持嵌入算法的间歇过程故障检测研究...
  6. android uri 电话号码,android 跳转通讯录 Android跳转到通讯录获取用户名称和手机号码的实现思路...
  7. mysql主从复制同步实验_db.mysql.主从同步实验
  8. div 位于屏幕正中间_折叠屏已经不新鲜了,明天你可能会用上“伸缩屏幕”!...
  9. linux内核编译ccflag,Linux内核模块编译失败
  10. python pandas 处理相同标题的csv文件_Python使用pandas处理CSV文件的实例讲解