Apriori的重要概念

Apriori的几个重要概念:支持度、置信度、提升度

什么是支持度

支持度是个百分比,它指的是某个商品组合出现的次数与总次数之间的比例。支持度越高,代表这个组合出现的频率越大

举个例子,商品列表:

在这个例子中,牛奶出现了4次,所以这5笔订单中,牛奶的支持度为 4/5 = 0.8

同样“牛奶+面包”出现了3次,所以这5笔订单中,牛奶+面包的支持度为 3/5 =0.6

什么是置信度

它指的是当你购买了商品A,会有多大的概率购买商品B

就拿上面那个例子来说

置信度(牛奶-啤酒) = 2/4=0.5,你在上面的购物单中,因为你购买了4次牛奶,而在这4次牛奶中,你有两次购买了啤酒,所以置信度为0.5

置信度(啤酒-牛奶)= 2/3 =0.67,代表了你购买了啤酒,会有多大的概率去购买牛奶

什么是提升度

我们在做商品推荐的时候,重点考虑的是提升度,因为提升度代表的是“商品A的出现,对商品B的出现概率提升的”程度。

具体的计算公式为:

提升度(A-B) = 置信度(A-B)/支持度(B)

这个公式是用来衡量A出现的情况下,是否会对B出现的概率,有所提升。

  1. 提升度(A-B)> 1:代表有提升
  2. 提升度(A-B)=1 :代表没有提升,也没有下降
  3. 提升度(A-B)<1 :代表有下降

Apriori的工作原理

Apriori算法其实计算查找频繁项集的过程

什么是频繁项集,频繁项集就是支持度大于等于最小支持度阈值的项集,所以小于最小值支持度的项目就是非频繁项集,而大于等于最小支持度的项集计算频繁项集。

Apriori算法的递归流程:

  • K=1,计算K项集的支持度
  • 筛选掉小于最小支持度的项集
  • 如果项集为空,则对应K-1项集的结果为最终结果

Apriori的改进算法:FP-Growth算法

针对Apriori的缺点进行改良,主要有:

  1. 创建了一颗FP树来储存频繁项集,在创建前对不满足最小支持度的项进行删除,减少了存储空间
  2. 整个生成过程只遍历数据集2次,大大减少了计算量

原理

  1. 创建项头表为FP构建及频繁项集挖掘提供索引

  2. 构造FP树,FP树的根节点记为null节点

  3. 通过FP树挖掘频繁项集

到这里我们就得到了一个储存频繁项集的FP树,以及一个项头表。我们可以通过项头表来挖掘每个频繁项集。

  1. 通过FP树挖掘频繁项集

到这里我们就得到了一个储存频繁项集的FP树,以及一个项头表。我们可以通过项头表来挖掘每个频繁项集。

具体的操作会用到一个概念,叫“条件模式基”,它指的是以要挖掘的节点为叶子节点,自底向上求出FP树,然后将FP树的祖先节点设置为叶子节点之和

apriori-课堂笔记相关推荐

  1. 管理系统中计算机应用第四章重点,管理系统中计算机应用课堂笔记第四章(4)...

    管理系统中计算机应用课堂笔记第四章(4) 分类:自考 | 更新时间:2016-07-08| 来源:转载 这个分析和抽象工作可分以下三步进行: 5.2.1数据流程图的绘制 数据流程图既是对原系统进行分析 ...

  2. AI公开课:19.04.10颜水成—360副总裁《人工智能:观察与实践》课堂笔记以及个人感悟—191017再次更新

    AI公开课:19.04.10颜水成-360副总裁<人工智能:观察与实践>课堂笔记以及个人感悟 导读       颜水成,新加坡国立大学副教授.360集团副总裁.人工智能研究院院长. 颜水成 ...

  3. AI公开课:19.05.16漆远-蚂蚁金服集团CF《金融智能的深度与温度》课堂笔记以及个人感悟—191017再次更新

    AI公开课:19.05.16漆远-蚂蚁金服集团CF<金融智能的深度与温度>课堂笔记以及个人感悟-191017再次更新 导读         漆远,麻省理工学院博士后,39岁被评为美国普渡大 ...

  4. AI英特尔杯公开课:2019.06.27在线直播《研究生人工智能创新大赛—AI赋能,创新引领》课堂笔记和感悟(二)

    AI英特尔杯公开课:2019.06.27在线直播<研究生人工智能创新大赛-AI赋能,创新引领>课堂笔记和感悟(二) 导读      讲解总体不错,知识点比较基础,适合入门,各种主流框架都有 ...

  5. AI英特尔杯公开课:2019.06.27在线直播《研究生人工智能创新大赛—AI赋能,创新引领》课堂笔记和感悟(一)

    AI英特尔杯公开课:2019.06.27在线直播<研究生人工智能创新大赛-AI赋能,创新引领>课堂笔记和感悟(一) 导读      讲解总体不错,知识点比较基础,适合入门,各种主流框架都有 ...

  6. AI公开课:19.05.29 浣军-百度大数据实验室主任《AutoDL 自动化深度学习建模的算法和应用》课堂笔记以及个人感悟

    AI公开课:19.05.29 浣军 百度大数据实验室主任<AutoDL 自动化深度学习建模的算法和应用>课堂笔记以及个人感悟 导读        浣军博士,汉族,1975年出生于江苏苏州, ...

  7. AI公开课:19.05.15施尧耘-达摩院量子实验室主任《量子计算:前景与挑战》课堂笔记以及个人感悟

    AI公开课:19.05.15施尧耘-达摩院量子实验室主任<量子计算:前景与挑战>课堂笔记以及个人感悟 导读         施尧耘1997年本科毕业于北京大学,后在普林斯顿大学取得计算机科 ...

  8. AI公开课:19.05.22 Aya Soffer—IBM AI Tech VP《Advanced, scalable, and trusted AI 》课堂笔记以及个人感悟

    AI公开课:19.05.22 Aya Soffer-IBM AI Tech VP<Advanced, scalable, and trusted AI >课堂笔记以及个人感悟 Introd ...

  9. AI公开课:19.04.18俞益洲—深睿医疗CS《计算机视觉的应用与落地》课堂笔记以及个人感悟

    AI公开课:19.04.18俞益洲-深睿医疗CS<计算机视觉的应用与落地>课堂笔记以及个人感悟 导读       俞益洲,现为深睿医疗联合创始人.首席科学家(Chief Scientist ...

  10. AI公开课:19.04.17杨松帆—好未来AI Lab负责人《为人工智能时代打造一个AI老师》课堂笔记以及个人感悟

    AI公开课:19.04.17杨松帆-好未来AI Lab负责人<为人工智能时代打造一个AI老师>课堂笔记以及个人感悟 导读 杨松帆,现为好未来教育集团人工智能实验室负责人.曾任FaceThi ...

最新文章

  1. 2008秋-计算机软件基础-第四章习题参考答案 P131 ,习题6之一
  2. opencv setTo()
  3. 机器学习:从入门到第一个模型
  4. 【C++学习详细教程目录】
  5. FF:纳斯达克要求退市系误读 警示函仅与推迟提交Q3财报相关
  6. 【ElasticSearch】Es 源码之 ResponseCollectorService 源码解读
  7. maven pom文件的一些自己的理解
  8. Codeforces Round #387 (Div. 2) 747E
  9. ios property 之 strong weak unsafe_unretained
  10. Latice CPLD jed转VME文件简介
  11. 希腊数字matlab,latex 希腊数字
  12. python马尔可夫链_Python中的马尔可夫链(初学者)
  13. angular 脏值检测基础流程
  14. r4900g3系统安装linux_H3C UniServer R4900 G3
  15. 华为服务器RH2288做raid方法
  16. React上拉加载和下拉刷新
  17. 苹果手机之间怎么传照片_如何使用蓝牙手机之间传照片
  18. 浅谈Java反射的实现原理
  19. MySQL基础-索引原理
  20. 二进制安全学习笔记(2)

热门文章

  1. oracle怎么值自增长,oracle怎么实现自增长
  2. ESTABLISHED状态
  3. 全景拍照返回键无保存
  4. 现代空战中情境觉知的研究
  5. php返回随机数,PHP内置函数生成随机数的方法汇总
  6. SQL中EXISTS与IN的使用及效率
  7. java SQLexists用法_sql中的 exists 用法
  8. JAVA基础入门--个人学习总结
  9. 咱们军人也有射击游戏玩了:光荣使命
  10. Android apk反编译学习【天天酷跑】