学习视频:B站【秦路】七周学会数据分析|良心教程(数据思维/统计学/excel/数据可视化/sql/python)

目录

  • 1.象限法
    • 总结
  • 2.多维法
    • 辛普森悖论
    • 优化方法
    • 总结
  • 3.假设法
    • 总结
  • 4.指数法
    • 4.1 线性加权
    • 4.2 反比例法
    • 4.3 log函数
    • 总结
  • 5.二八法
    • 帕累托图
    • 应用
    • 总结
  • 6.对比法
    • 总结
  • 7.漏斗法
    • 总结
  • 如何在业余时间锻炼数据分析思维?
    • 生活中练习思维
    • 工作中练习思维

1.象限法


这里例举的是APP,区分类别。按照高频和低频作为Y轴,将邻域的综合或者垂直分为X轴。
象限法最简单的就是对数据进行人工的分类:

(这个图老师的横纵坐标写反了。。。)
上图就可以用来对用户进行分群划分。
下图是一种比较经典的用户划分方式,将用户分为了8个象限:

总结

象限法的核心:策略驱动,我们划分出来的一定可以直接应用于策略。优点是直观、清晰,对数据进行的是人工的划分。

2.多维法


多维法是把数据的多个属性、维度。比如上图,我们将类型分为电子产品、日用品、书籍。从图中我们可以分析出2010年1季度,浙江书籍的销量,这种方法可以很直观的得到各种属性之间的关系。

利用多维法我们可以统计出多种属性,如下图:

划分出上面这些一个个维度,就可以利用多维法统计出一个大的立方体。这种方法比较适宜于大数据量的数据,数据量越丰富,统计起来更有优势,对于丰富维度的判别。
但多维法缺点:

辛普森悖论

我们看上图,可以看到女生的录取率比男生录取率要高很多,那这可以说明这个学院就"阴盛阳衰"吗?这种说法其实是错误的,这里我们把学院进一步拆分:

如上图,这里从商学院和法学院分开来看,可以看出男生的录取率其实都比女生高,但是总计的录取率女生就是男生的两倍。这个问题就是多维法常遇到的,我们在分析过程中挑了很多的维度,但这些维度容易造成误差。在本案例中,实际上就是被平均了。这种陷阱在统计学上被称为辛普森悖论。

优化方法

如何避免这种问题呢?

  1. 钻取(Drill-down):这实际上就是对属性的进一步挖掘,每一个拆开来,有点类似于结构化思维。eg:把书籍细分为悬疑类,言情类,文学类等等,把这个书籍维度进一步细挖;刚刚的学院问题,我们把学院分为商学院、法学院,还可以进一步分为班级等,这都是钻取。可以想一下钻井的感觉,不停的深挖。
  2. 上卷(Roll-up)
  3. 切片(Slice)
  4. 切块(Dice)
  5. 旋转(Pivot)
    从上图很形象的展示了这几种模式,利用这5种方法(联想到深度学习中为了防止过拟合,对数据增强,钻取这些就类似数据取patch。)

总结


多维法(图片上是错别字),是一种精细驱动的思维,不断地挖掘细节。
优点是对大数据处理时维度丰富且复杂的数据有较好的效果,但是维度过多,时间消耗也更多。
这种方法的使用前提就需要数据丰富、齐全。

3.假设法

例题:

现在、马上,A要去贝宁出差,只能携带一个背包,她要往包里装什么?为什么?

可能我们大多数听到,马上就会想到衣服、身份证等,但专业的思维是:

虽然贝宁这个地方我不熟悉,但我假设它在非洲。那么现在我得考虑炎热的情况…进一步分析。

在实际的案例数据分析过程中,我们很多时候是面对未知的事物,如开拓某一样新产品,这一切都是空白的;或者在实际过程中,拿不到数据等等,这一系列没有数据,但我们又需要分析的时候,那么就需要用到假设法的思维。

案例分析:

分析思维,首先我们假设活动是有效的(论点)。然后去想办法证明这个论点正确,比如通过用户的评论等等,去判断是活动的原因提高的吗。

在实际生活中,我们常遇到的就是这种,现在想让商品提价,但是提价以后对商品销量的影响,整体收入的影响,这些需要怎么来判断呢?没有实际的数据,我们要做的就是利用假设法进行分析。

我们在思考问题的时候,就可以考虑:如商品提价后,销量下跌,销量下跌多少呢?如果销量下跌5%,而我们提价20%,这也会让我们的总收入提高。假设流量不变,还可以分析对转化率的波动影响;以前1000人会有200个人购买,提价后1000人会有多少人呢,可以分析用户转化率的问题等等等

总结


通过上面的学习,我们可以知道假设法实际上是一种启发思想驱动的思维。对一个需要验证的问题,我们先提前假设一个结论,然后去验证这个结论的正确性,最后得到判断结果的正确性。
优点是当没有直观数据得时候,是一种有效的论证方式。
当然,不止可以假设前提,也能假设概率、比例,万事皆可假设,只要能自圆其说。

4.指数法

对于一些发散的问题:

中国今年经济指标如何?
NBA最佳球星是谁?
竞争对手产品表现如何?
最帅男明星是谁?

对于这些问题,我们实际上很难通过一种很具体的指标得到一个统一的判定的结果,都是具有一定主观性的问题。
在实际数据分析中,我们也会得到很多很多的数据,那么我们怎么来衡量各项指标呢?如何得到一个相对统一的标准?比如,评价最帅男明星,他的身高?五官?演技?等等。。而利用指数法,我们就是来衡量各项指标的问题。

如下,NBA会提供一个比塞数据贡献值:

指数法的核心就是对数据进行加工,变成一个目标指数。

很多时候,我们是有数据,但是却不知道怎么应用,就是缺乏一个有效性的方向。这个方向可以成为目标指数,通过对数据加工成指数,达到聚焦的目的。

老师归纳了三种方法:

以下操作均可以利用excel进行:

4.1 线性加权

这个实际上就是通过给各项数据指标乘上一定的权重系数,然后再求和。eg:有a,b,c三种属性来判断用户的价值,对于我们产品,a属性高的用户更有优势,因此我们给a属性更大的权重系数(本例给3)。(3a+b+0.5c=用户价值),这样计算加工得到的综合性的用户价值,我们再来进一步对用户进行划分,就更具有实际指导意义。
如下图,红框中的就是我们加权求和公式,给了不同的权重。

用户社交指数:是否需要用户帮忙传播

4.2 反比例法

目的:让数字达到收敛,收敛到[0,1]区间。

公式类型:
Y=K/X (k取常数),这就是我们常见的反比例函数。


这里运用的公式是 y(忠诚度)=1-1/消费次数(最终结果归一化到[0,1]区间),每个月消费越多,后面1/消费次数越小,1-1/消费次数这个值就越大,代表用户忠诚度越高。然后对3个月所得的忠诚值求和,得到最终的用户忠诚指数。
这里可以结合刚刚1中学到的线性加权方法,给距现在最近的9月一个更大的权重系数,较远的7月给一个较小的权重系数,然后求和平均。这样的数据更能够反应用户现状。

反比例函数还可以表示为:
Y=X/(X+1)
这样子的话,x=0时,y=0;x=1,y=0.5;x=4,y=0.8。

这种增长模式也比较符合数据表现,没有的0到消费1次的跳跃,忠诚度的值差距有“0.5”,而1到4,y的指数变化只有“0.3”。对于一个商家来说,有和无其实是非常重要的差别,我们这里放大了这种差距,更有利于指导决策。
因此在采用反比例函数公式的时候,也可以多种比较选取,不用局限于某一种思维。

4.3 log函数

刚刚反比例函数是将取值归到[0,1]区间,但这种区间不适合所有情况,我们这里还有另外一种,log函数(对数函数)。
先来回顾一下log函数是什么:

底数a>1时,就是红色这根变化曲线,使用log函数,可以看到y的取值范围更大,我个人理解,这样就不容易出现数据处理后的结果过于接近,扩大数据间的辨识性。


对于新闻热度分析的时候,时间是一个很重要的指标,表中选择基为:2017/1/1(网站开始运行时间),然后和新闻发布时间作差,差值越大也就是发的越晚离现在时间越近,新闻时效性越高。得到的差值也可以乘上系数,在本例中老师选择了*0.1。

计算热度的公式:

log(uv+评论*10,2)
即底数为2,同时里面uv和评论是运用了加权求和。

这个优势可以从表中看出,评论为2700,得到的热度也不会很大,这就可以防止水军对我们数据分析的干扰。也因为这个结果差距不大,在实际计算中,我们可以加大小数点后保留的位数,这样可以避免数据相同的情况。

得到每一项的数据以后,我们将其求和,基本可以作为评判一个文章的价值大小的值。

这个公式:

log(UV+5*评论,2)+(time-init)/10

这就是一个完整的公式,也是现在很多公司在实际数据分析过程中采用的。

总结

5.二八法

帕累托图

我们常听到的二八法则,社会80%的财富掌握在20%的人手里;80%的人却只掌握了20%的财富。
而在我们数据分析过程中,80%的数据是无用的,不能产生价值的。二八法则又叫帕累托法则,如下帕累托图。

这个图展示的就是迟到的原因,就是一个很典型的二八法则,大部分原因还是集中在前面80%。而最后两种20%的情况,却产生了80%的效果。

应用

  1. 数据中20%的变量将直接产生80%的效果,数据分析应该围绕着20%做文章。
  2. 持续关注topN的数据,是一个非常好的习惯,尤其在部分行业。也就是关注排名最前的那10或者20类,比如一个销售总监,她最关注的就是那最出色的20名销售。
  3. 虽然指标很多,但往往某些指标更具价值,二八法则不仅能分析数据,也能管理数据。虽然数据分析拆出了很多指标,这里让我们抓住重点的去管理。

总结


核心就是抓住重点,和业务紧密相关,这样能能够花最少的精力就达到不错的效果,性价比很高。but,数据分析也不能漏掉全局!!!

6.对比法

好的数据指标,一定是比例或者比率。
好的数据分析,一定会用到对比。

来,我们上案例:

  1. 知道老王今天卖了多少,这个实际上没啥意义。
  2. 知道了昨天卖了多少钱,我们可以通过比较看出老王销售呈上升的趋势。
  3. 和隔壁对比,我们看到老马卖了2000元,虽然老王的销量呈上升趋势,但实际上老王卖的还是不好的。
  4. 通过对比,只能看出老马跌的比较厉害,老王跌的不太厉害,这可能比我们前面的分析价值大,但还是不能说明问题。
  5. 因为老王花了3000元砸重金营销了,花费的钱多了。这就考虑到营销的概念。
  6. 几百亿资产,就应该是去看更多,而不是现在的这几千元,就没啥意义。

通过这个案例我们可以看出,孤立的看数据有时候意义不大,应该对比着来看。

问题:

节日大促,女生消费占比从60%变为70%,可以看出女生节假日爱消费吗?

占比提高,但是用实际数据可以看出,女生反而购买金额降低了,反而没有买买买了。虽然节日有活动,但是这时候要记得竞争对手,万一竞争对手准备了一个超级大促销,女生都跑到竞争对手那去了,所以销量是降低了。

通过这个例子我们可以看出,孤数不准,很多时候我们要把数据多对比,和自己的历史数据对比,和竞争对手的数据对比,和各种因素对比等等。

可以考虑对比的因素如下:

总结


一次合格的数据分析,是会用到N次对比的!!

7.漏斗法

先上图直观理解一下漏斗:

但就通过上面的漏斗我们有用吗?虽然是过程转化率,但是没有用的,比如我们得到下单转化率是20%,这有什么用呢?我们怎么知道这个20%是好还是坏呢?你跟竞争对手比过吗?和过去的历史数据比过吗?

因此我们结合刚刚提到的对比法,进一步改进,如下图:

总结


单一的漏斗是没有使用意义的,我们要结合其它的思维,比如我们刚刚提到的对比法等。

如何在业余时间锻炼数据分析思维?



之前,大家都认为啤酒放在尿布边会增加啤酒的销量。但是大家有考虑过:
思维

  1. 买啤酒的人都会买尿布吗?????这种方法只是带动了想买尿布的人去买啤酒。
  2. 尿布旁边摆放的东西,啤酒一定是最佳选择吗?这也不一定啊,和婴儿更相关的东西可能会更优,比如婴儿的奶粉等等。因为可能妈妈们去买呀。超市的目的不是单纯提高啤酒的销量,而应该是整个超市的销量达到最大化!
  3. 假设啤酒摆放是对的,那是摆放部分还是全品类呢?价格低的还是高的呢?这些都是讲究。
  4. 场景型的摆放是否比品类型的摆放更好呢? 现在超市大部分还是品类型的摆放,那为什么呢?
  5. 数据呢?销量提高了多少呢?要用指标来说话呀。

生活中练习思维

在实际生活中,要想锻炼我们的好奇心思维,就应该多练习,比如我们走在夜市上,可以思考以下的一些问题:

生活中有很多地方可以提高我们的分析思维,第一是先预估,第二是怎么改进。
利用这一种思维,比如进到超市,预估一下超市营业额,再想一下要怎么改进呢。电梯广告、药店销售这些都可以。

工作中练习思维


去思考不被认可的分析原因;站在更高的角度去考虑;复盘,回看自己之前出现的问题,当然这也需要记笔记、保留数据的习惯;对历史分析去不断优化和迭代,学会总结。

数据分析2——核心思维技巧相关推荐

  1. 数据分析---三种数据分析核心思维:结构化、公式化、业务化

    数据分析有三种核心思维:结构化.公式化.业务化 背景: 有个线下销售的产品,发现8月的销售额度下载了.怎么分析这一现象? 混乱的思路: 和去年同比下降了20%,不知道是突然暴跌还是逐渐下降. 再按照不 ...

  2. 数据分析学习笔记(二) 数据分析的思维技巧

    秦路<七周成为数据分析师>学习笔记,供自己学习查看使用,侵删. 目录 象限法 多维法 假设法 指数法 二八法 对比法 漏斗法 象限法 常见用途: 用户分群:用户价值与用户流失度两个维度进行 ...

  3. 数据分析入门之三种核心思维

    数据分析入门 如何简单数据 有哪种核心思维来分析数据 作为一名程序员如何分析数据 来一一解答 数据分析入门 学习数据分析第一需要理解数据分析思维 为什么思维重要? 不知道问题有没有发生 不知道问题在哪 ...

  4. 5种数据分析常用的思维方法!

    戳蓝字"CSDN云计算"关注我们哦! 转自:中国统计网 来源:网络大数据 在数据分析中,数据分析思维是框架式的指引,实际分析问题时还是需要很多"技巧工具"的.就 ...

  5. 【SQL Server】数据库开发指南(三)面向数据分析的 T-SQL 编程技巧与实践

    本系列博文还在更新中,收录在专栏:#MS-SQL Server 专栏中. 本系列文章列表如下: [SQL Server] Linux 运维下对 SQL Server 进行安装.升级.回滚.卸载操作 [ ...

  6. 更快学习 JavaScript 的 6 个思维技巧

    2019独角兽企业重金招聘Python工程师标准>>> 我们在学习JavaScript,或其他任何编码技能的时候,往往是因为这些拦路虎而裹足不前: 有些概念可能会造成混淆,尤其当你是 ...

  7. 《Spark大数据分析:核心概念、技术及实践》大数据技术一览

    本节书摘来自华章出版社<Spark大数据分析:核心概念.技术及实践>一书中的第1章,第1节,作者穆罕默德·古勒(Mohammed Guller)更多章节内容可以访问云栖社区"华章 ...

  8. 《Spark大数据分析:核心概念、技术及实践》一1.5 NoSQL

    本节书摘来自华章出版社<Spark大数据分析:核心概念.技术及实践>一书中的第1章,第1.5节,作者[美] 穆罕默德·古勒(Mohammed Guller),更多章节内容可以访问云栖社区& ...

  9. 《Spark大数据分析:核心概念、技术及实践》一3.6 惰性操作

    本节书摘来自华章出版社<Spark大数据分析:核心概念.技术及实践>一书中的第3章,第3.6节,作者[美] 穆罕默德·古勒(Mohammed Guller),更多章节内容可以访问云栖社区& ...

  10. 《Spark大数据分析:核心概念、技术及实践》一3.5 API

    本节书摘来自华章出版社<Spark大数据分析:核心概念.技术及实践>一书中的第3章,第3.5节,作者[美] 穆罕默德·古勒(Mohammed Guller),更多章节内容可以访问云栖社区& ...

最新文章

  1. 【imx6】libipu.so.0说明
  2. 2.非关系型数据库(Nosql)之mongodb:mongodb显示所有数据库,使用数据库,集合创建(显示和隐式创建),集合查询,初步数据的增删改查,分页
  3. python中字典的键必须是可以哈希的对象
  4. Elasticsearch Java API 的使用—多条件查询
  5. 一个利用sql 语句来实现分页的存储过程
  6. 数据库工作笔记018---Windows下mysql安装_服务无法启动没有报告解决
  7. CLR via C# 内存管理读书记
  8. sql server 索引阐述系列五 索引参数与碎片
  9. OpenCV中threshold自动阈值,类似matlab中的graythresh
  10. 电子邮件营销初学者指南(二):如何开始与撰写
  11. DAO 为什么难以实现问责制的去中心化
  12. 985 高校副教授一年工资多少?
  13. Hanselman的精彩事事通讯:2014年9月5日
  14. Java中解析XML文件之SAX方式
  15. 2020.08.28(写点题)
  16. 3Dmax学习质感细节立体_记录一下
  17. 蓝色简洁大学毕业生求职简历PPT模板
  18. 微信测试公众号接口配置修改报-配置失败 错误信息- {errcode:-106,errmsg:token check fail}
  19. 软件工程毕业设计课题(68)微信小程序毕业设计PHP民宿酒店预订小程序系统设计与实现
  20. 解决【找不到模块“./index.module.scss”或其相应的类型声明。ts(2307)】

热门文章

  1. 26个字母的html代码多少,标准的26个字母的读法 二十六个汉语拼音字母怎么读才算正确...
  2. mysql 汉字笔画排序规则_SQL Server 与 MySQL 中排序规则与字符集相关知识的一点总结...
  3. 卡贴机变无锁教程_如何让“有锁”iPhone变“无锁”?“有锁”iPhone变“无锁”设置教程...
  4. 5G核心网技术基础自学系列 | 用户面处理
  5. 怎么投诉或举报京东第三方商家
  6. 医院排队叫号系统(JAVA版)
  7. 微带贴片天线谐振边为什么是半波长?
  8. Android—传感器-方向传感器
  9. 2013年12月福建省广播电台网络影响力排名
  10. bios error 装系统acpi_WIN10重装系统提示错误ACPI?处理重装系统bios acpi错误