关联分析是数据挖掘体系中重要的组成部分之一,其代表性的案例即为“购物篮分析”。我们以数据挖掘软件Clementine自带的一个购物篮分析的数据为例,从多个方面来探讨这一方面的内容。

关联分析要解决的主要问题是:一群用户购买了很多产品之后,哪些产品同时购买的几率比较高?买了A产品的同时买哪个产品的几率比较高?可能是由于最初关联分析主要是在超市应用比较广泛,所以又叫“购物篮分析”,英文简称为MBA,当然此MBA非彼MBA,意为Market

Basket Analysis。

如果在研究的问题中,一个用户购买的所有产品假定是同时一次性购买的,分析的重点就是所有用户购买的产品之间关联性;如果假定一个用户购买的产品的时间是不同的,而且分析时需要突出时间先后上的关联,如先买了什么,然后后买什么?那么这类问题称之为序列问题,它是关联问题的一种特殊情况。从某种意义上来说,序列问题也可以按照关联问题来操作。

关联分析有三个非常重要的概念,那就是“三度”:支持度、可信度、提升度。假设有10000个人购买了产品,其中购买A产品的人是1000个,购买B产品的人是2000个,AB同时购买的人是800个。支持度指的是关联的产品(假定A产品和B产品关联)同时购买的人数占总人数的比例,即800/10000=8%,有8%的用户同时购买了A和B两个产品;可信度指的是在购买了一个产品之后购买另外一个产品的可能性,例如购买了A产品之后购买B产品的可信度=800/1000=80%,即80%的用户在购买了A产品之后会购买B产品;提升度就是在购买A产品这个条件下购买B产品的可能性与没有这个条件下购买B产品的可能性之比,没有任何条件下购买B产品可能性=2000/10000=20%,那么提升度=80%/20%=4。(http://bai.zhihao.blog.163.com/blog/static/5652272320118953220582/)

关联分析最经典的案例是沃尔玛的啤酒与尿布的故事:

沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,啤酒与尿布两件看上去毫无关系的商品会经常出现在同一个购物篮中。原来,年轻的父亲前去超市购买尿布的同时,往往会顺便为自己购买啤酒。

沃尔玛发现了这一独特的现象,开始在卖场尝试将啤酒与尿布摆放在相同的区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物。而沃尔玛超市也可以让这些客户一次购买两件商品,而不是一件,从而获得了更多的销售收入。它向我们揭示商品之间是具有关联关系的,发现并利用这些商品之间的关联关系,可以在无法大幅增加门店客户数的前提下,通过增加购物篮中的商品数量达到增加销售额的目的,从而获得更大的经营收益。

商品相关性是指商品在卖场中不是孤立的,不同商品在销售中会形成相互影响关系,由于这种关系往往隐藏在数量庞大的商品群后面,平常我们无法发现,因此也称之为商品之间的“暗恋关系”。

那我们怎么让“暗恋关系”公开化呢?发现商品之间关联关系的方法,称为购物篮分析。对于传统零售业来说,要想进行商品的购物篮分析,需要采取一定的数据分析手段。

首先我们通过POS机收集的客户购物数据,找出哪些商品经常出现在同一个购物篮中。如果发现啤酒与尿布出现在同一个购物篮的概率比较高,就可以认为啤酒与尿布之间具有关联关系。这样就可以提示卖场的管理者,将原本看上去不搭界的啤酒与尿布两种商品陈列在一起,或者捆绑在一起促销,使这种“暗恋关系”起到促进销售的作用,使“暗恋关系”公开化。(《啤酒与尿布》)

我们的数据包括这些内容:

购物篮摘要:

• cardid.购买此篮商品的客户的忠诚卡标识符。

• value.购物篮的总购买价格。

• pmethod.购物篮的支付方法。

卡持有者的个人详细信息:

• sex

• homeown.卡持有者是否拥有住房。

• 收入

• age

购物篮内容 -

产品类别的出现标志,数据中T表示购买,F表示未购买:

• fruitveg

• freshmeat

• dairy

• cannedveg

• cannedmeat

• frozenmeal

• beer

• wine

• softdrink

• fish

• confectionery

利用Clementine的web网络作图功能,可以得到以下结果:

在对关系强度显示进行调整后,可以清晰的得到三个商品群体,可以理解为消费者更多地购买群体组合的产品,即同时购买同一群体内的产品。

这是采用GRI关联模型得到的结果:

结果和网络图观察到的结果基本一致。

利用数据挖掘的技术,此时我们还可以使用C5.0等相关算法对同一问题进行建模,并对建模结果进行主观评价和客观准确性验证。同时,我们可以将三类产品群体的购买消费者筛选出来,继续使用关联分析的方法,考察人口统计学变量对产品群体的影响,从而确定哪一类人群更喜爱同时购买哪些产品,为产品销售提供支持。

下面,我们忽略此数据的实际意义,仅考虑要对若干变量进行分类,不再考虑实际问题与统计方法的适合性,只看数据结构,使用传统的统计学数据分析方法,我们是不是仍然可以得出这些结论呢?

将数据导入到SPSS当中,将数据重新编码,原来的T、F用数字1、0来代替,因为1、0是可以运算的数字,可以参加多种的数学建模。

相关分析的结果:

聚类的结果:

因子分析的结果:

所有结论一致性都很高!

关联分析购物篮案例python_多角度看数据挖掘经典案例-购物篮分析相关推荐

  1. v54.04 鸿蒙内核源码分析(静态链接) | 一个小项目看中间过程 | 百篇博客分析HarmonyOS源码

    子曰:"回也其庶乎,屡空.赐不受命,而货殖焉,亿则屡中." <论语>:先进篇 百篇博客系列篇.本篇为: v54.xx 鸿蒙内核源码分析(静态链接篇) | 一个小项目看中 ...

  2. 复位 stm32_分析一个关于STM32 芯片异常复位的经典案例!

    前言 本篇主要是介绍一种处理问题的思路,即当我们在做STM32应用开发过程中,遇到芯片异常复位,或者进入了异常处理时,如何通过集成开发环境,如IAR,KEIL等查看相应的ARM内核寄存器,定位出应用软 ...

  3. 品牌推广方案案例(二十个品牌策划经典案例分析)

    转化能力,营销领域的知识共享平台!分享营销案例,营销工具,共享平台                                                                   ...

  4. 数据挖掘算法案例python_《常用数据挖掘算法总结及Python实现》[5.1MB]PDF影印版下载-码农之家...

    <常用数据挖掘算法总结及Python实现>是一本数据挖掘相关的电子书资源,介绍了关于数据挖掘.算法总结.Python方面的内容,格式为PDF,资源大小5.1 MB,由debao9765 提 ...

  5. java过滤器经典案例_JAVA语言基础的经典案例:猜字母游戏

    设计数据结构 问题 猜字母游戏规则为,随机产生5个按照一定顺序排列的字符作为猜测的结果,由玩家来猜测此字符串,玩家可以猜测多次,每猜测一次,由系统提示结果,如果猜测的完全正确则游戏结束,计算玩家的游戏 ...

  6. Python编程经典案例【考题】排列组合

    本文和你一起探索Python编程经典案例,让你沉浸式学习Python.你可以拿着题目先思考,然后再对照本文解题方法进行比较.有不同的见解欢迎到公众号中跟我一起探讨. 文章目录 一.经典案例[考题] 二 ...

  7. C++经典案例水仙花数

    C++经典案例水仙花数 目录 C++经典案例水仙花数 1.案例描述 2.注意点 3.代码演示 1.案例描述 案例描述:水仙花数是指一个三位数,它的每个位上数字的3次幂之和等于它本身 例子:153=1^ ...

  8. 数据分析究竟有没有价值?看完这个案例你就明白了

    数据分析这个词,想必对于很多人来说已经没有多少新鲜感了,越来越多的企业开始将数据分析作为信息化建设的下一个目标,在大数据时代的裹挟下,以前IT部门才能做的数据分析,现在也成为了业务人员的新宠,拿数据. ...

  9. python在工程管理专业的应用案例_Python课程中实际项目案例分析

    项目三 内容推荐系统 传统的需求收集方式多是做一些调研,如用户访谈.问卷调查.焦点小组.现场调研等.虽说这是直面用户很好的方式,但是也存在一些局限性, 如样本不够多,投入时间人力成本大,访谈环境对受访 ...

  10. SQL优化实战经典案例分析

    前言 大家好,我是黎杜,今天和大家聊聊SQL优化的场景. SQL调优这块呢,大厂面试必问的.最近金九银十嘛,所以整理了SQL的调优思路,并且附几个经典案例分析. 1.慢SQL优化思路. 慢查询日志记录 ...

最新文章

  1. R语言机器学习Caret包(Caret包是分类和回归训练的简称)、数据划分、数据预处理、模型构建、模型调优、模型评估、多模型对比、模型预测推理
  2. 编写个shell脚本将/home/test 目录下大于10K的文件转移到/tmp目录下
  3. SSE命令示例代码(转换、加载、置位、存储)
  4. android apk 微信登入_Android集成第三方微信登录
  5. Kafka学习-复制
  6. 30分钟用Restful ABAP Programming模型开发一个支持增删改查的Fiori应用
  7. Ubuntu 16.04 设置MySQL远程访问权限
  8. 用Delphi制作网络游戏外挂
  9. freeswitch 安装 fail2ban 动态拦截IP攻击
  10. Redis学习笔记01---配置文件
  11. 联发科发布天玑5G开放架构 采用该定制芯片终端7月上市
  12. hive-05-Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask
  13. Wireshark验证TCP三次握手四次挥手
  14. ASP.NET Identity系列01,揭开神秘面纱
  15. 深度学习(01)——安装anaconda
  16. 洛谷P1141 01迷宫【bfs】
  17. 手动卸载CAD 删除残留文件 清理遗留的文件
  18. html常用布局标签的合理搭配
  19. 倒水c语言,洛谷 P1432 倒水问题
  20. linux limits.conf 生效,linux修改limits.conf不生效

热门文章

  1. GIMP教程 3 扭曲变换工具 (瘦脸 瘦腿)
  2. 【三维激光扫描】第四章:点云数据处理
  3. 图解设计模式-Facade模式
  4. Luogu3444:[POI2006]ORK-Ploughing
  5. 【更新】PDF控件Spire.PDF 3.9.538发布 | 附下载
  6. lopatkin俄大神精简中英俄系统Windows 10 Home 18362.145 19H1 Release x86-x64 RU-EN-CN NANO
  7. TeamView for Linux是这样实现的!
  8. 用java画工作流流程图,java生成流程图
  9. 通达信版弘历软件指标_弘历指标源码:弘历软件主要功能是什么?选股精不精准?...
  10. 【好玩的代码雨(附源代码)】