数据分析2——核心思维技巧

学习视频：B站【秦路】七周学会数据分析|良心教程（数据思维/统计学/excel/数据可视化/sql/python）

1.象限法
- 总结
2.多维法
- 辛普森悖论
- 优化方法
- 总结
3.假设法
- 总结
4.指数法
- 4.1 线性加权
- 4.2 反比例法
- 4.3 log函数
- 总结
5.二八法
- 帕累托图
- 应用
- 总结
6.对比法
- 总结
7.漏斗法
- 总结
如何在业余时间锻炼数据分析思维？
- 生活中练习思维
- 工作中练习思维

1.象限法

这里例举的是APP，区分类别。按照高频和低频作为Y轴，将邻域的综合或者垂直分为X轴。
象限法最简单的就是对数据进行人工的分类：

（这个图老师的横纵坐标写反了。。。）
上图就可以用来对用户进行分群划分。
下图是一种比较经典的用户划分方式，将用户分为了8个象限：

总结

象限法的核心：策略驱动，我们划分出来的一定可以直接应用于策略。优点是直观、清晰，对数据进行的是人工的划分。

2.多维法

多维法是把数据的多个属性、维度。比如上图，我们将类型分为电子产品、日用品、书籍。从图中我们可以分析出2010年1季度，浙江书籍的销量，这种方法可以很直观的得到各种属性之间的关系。

利用多维法我们可以统计出多种属性，如下图：

划分出上面这些一个个维度，就可以利用多维法统计出一个大的立方体。这种方法比较适宜于大数据量的数据，数据量越丰富，统计起来更有优势，对于丰富维度的判别。
但多维法缺点：

辛普森悖论

我们看上图，可以看到女生的录取率比男生录取率要高很多，那这可以说明这个学院就"阴盛阳衰"吗？这种说法其实是错误的，这里我们把学院进一步拆分：

如上图，这里从商学院和法学院分开来看，可以看出男生的录取率其实都比女生高，但是总计的录取率女生就是男生的两倍。这个问题就是多维法常遇到的，我们在分析过程中挑了很多的维度，但这些维度容易造成误差。在本案例中，实际上就是被平均了。这种陷阱在统计学上被称为辛普森悖论。

优化方法

如何避免这种问题呢？

钻取（Drill-down）：这实际上就是对属性的进一步挖掘，每一个拆开来，有点类似于结构化思维。eg：把书籍细分为悬疑类，言情类，文学类等等，把这个书籍维度进一步细挖；刚刚的学院问题，我们把学院分为商学院、法学院，还可以进一步分为班级等，这都是钻取。可以想一下钻井的感觉，不停的深挖。
上卷（Roll-up）
切片（Slice）
切块（Dice）
旋转（Pivot）
从上图很形象的展示了这几种模式，利用这5种方法（联想到深度学习中为了防止过拟合，对数据增强，钻取这些就类似数据取patch。）

总结

多维法（图片上是错别字），是一种精细驱动的思维，不断地挖掘细节。
优点是对大数据处理时维度丰富且复杂的数据有较好的效果，但是维度过多，时间消耗也更多。
这种方法的使用前提就需要数据丰富、齐全。

3.假设法

例题：

现在、马上，A要去贝宁出差，只能携带一个背包，她要往包里装什么？为什么？

可能我们大多数听到，马上就会想到衣服、身份证等，但专业的思维是：

虽然贝宁这个地方我不熟悉，但我假设它在非洲。那么现在我得考虑炎热的情况…进一步分析。

在实际的案例数据分析过程中，我们很多时候是面对未知的事物，如开拓某一样新产品，这一切都是空白的；或者在实际过程中，拿不到数据等等，这一系列没有数据，但我们又需要分析的时候，那么就需要用到假设法的思维。

案例分析：

分析思维，首先我们假设活动是有效的（论点）。然后去想办法证明这个论点正确，比如通过用户的评论等等，去判断是活动的原因提高的吗。

在实际生活中，我们常遇到的就是这种，现在想让商品提价，但是提价以后对商品销量的影响，整体收入的影响，这些需要怎么来判断呢？没有实际的数据，我们要做的就是利用假设法进行分析。

我们在思考问题的时候，就可以考虑：如商品提价后，销量下跌，销量下跌多少呢？如果销量下跌5%，而我们提价20%，这也会让我们的总收入提高。假设流量不变，还可以分析对转化率的波动影响；以前1000人会有200个人购买，提价后1000人会有多少人呢，可以分析用户转化率的问题等等等

总结

通过上面的学习，我们可以知道假设法实际上是一种启发思想驱动的思维。对一个需要验证的问题，我们先提前假设一个结论，然后去验证这个结论的正确性，最后得到判断结果的正确性。
优点是当没有直观数据得时候，是一种有效的论证方式。
当然，不止可以假设前提，也能假设概率、比例，万事皆可假设，只要能自圆其说。

4.指数法

对于一些发散的问题：

中国今年经济指标如何？
NBA最佳球星是谁？
竞争对手产品表现如何？
最帅男明星是谁？

对于这些问题，我们实际上很难通过一种很具体的指标得到一个统一的判定的结果，都是具有一定主观性的问题。
在实际数据分析中，我们也会得到很多很多的数据，那么我们怎么来衡量各项指标呢？如何得到一个相对统一的标准？比如，评价最帅男明星，他的身高？五官？演技？等等。。而利用指数法，我们就是来衡量各项指标的问题。

如下，NBA会提供一个比塞数据贡献值：

指数法的核心就是对数据进行加工，变成一个目标指数。

很多时候，我们是有数据，但是却不知道怎么应用，就是缺乏一个有效性的方向。这个方向可以成为目标指数，通过对数据加工成指数，达到聚焦的目的。

老师归纳了三种方法：

以下操作均可以利用excel进行：

4.1 线性加权

这个实际上就是通过给各项数据指标乘上一定的权重系数，然后再求和。eg：有a，b，c三种属性来判断用户的价值，对于我们产品，a属性高的用户更有优势，因此我们给a属性更大的权重系数（本例给3）。（3a+b+0.5c=用户价值），这样计算加工得到的综合性的用户价值，我们再来进一步对用户进行划分，就更具有实际指导意义。
如下图，红框中的就是我们加权求和公式，给了不同的权重。

用户社交指数：是否需要用户帮忙传播

4.2 反比例法

目的：让数字达到收敛，收敛到[0,1]区间。

公式类型：
Y=K/X （k取常数），这就是我们常见的反比例函数。

这里运用的公式是 y(忠诚度)=1-1/消费次数（最终结果归一化到[0,1]区间），每个月消费越多，后面1/消费次数越小，1-1/消费次数这个值就越大，代表用户忠诚度越高。然后对3个月所得的忠诚值求和，得到最终的用户忠诚指数。
这里可以结合刚刚1中学到的线性加权方法，给距现在最近的9月一个更大的权重系数，较远的7月给一个较小的权重系数，然后求和平均。这样的数据更能够反应用户现状。

反比例函数还可以表示为：
Y=X/(X+1)
这样子的话，x=0时，y=0；x=1，y=0.5；x=4，y=0.8。

这种增长模式也比较符合数据表现，没有的0到消费1次的跳跃，忠诚度的值差距有“0.5”，而1到4，y的指数变化只有“0.3”。对于一个商家来说，有和无其实是非常重要的差别，我们这里放大了这种差距，更有利于指导决策。
因此在采用反比例函数公式的时候，也可以多种比较选取，不用局限于某一种思维。

4.3 log函数

刚刚反比例函数是将取值归到[0,1]区间，但这种区间不适合所有情况，我们这里还有另外一种，log函数（对数函数）。
先来回顾一下log函数是什么：

底数a>1时，就是红色这根变化曲线，使用log函数，可以看到y的取值范围更大，我个人理解，这样就不容易出现数据处理后的结果过于接近，扩大数据间的辨识性。

对于新闻热度分析的时候，时间是一个很重要的指标，表中选择基为：2017/1/1（网站开始运行时间），然后和新闻发布时间作差，差值越大也就是发的越晚离现在时间越近，新闻时效性越高。得到的差值也可以乘上系数，在本例中老师选择了*0.1。

计算热度的公式：

log（uv+评论*10，2）
即底数为2，同时里面uv和评论是运用了加权求和。

这个优势可以从表中看出，评论为2700，得到的热度也不会很大，这就可以防止水军对我们数据分析的干扰。也因为这个结果差距不大，在实际计算中，我们可以加大小数点后保留的位数，这样可以避免数据相同的情况。

得到每一项的数据以后，我们将其求和，基本可以作为评判一个文章的价值大小的值。

这个公式：

log(UV+5*评论，2)+（time-init）/10

这就是一个完整的公式，也是现在很多公司在实际数据分析过程中采用的。

总结

5.二八法

帕累托图

我们常听到的二八法则，社会80%的财富掌握在20%的人手里；80%的人却只掌握了20%的财富。
而在我们数据分析过程中，80%的数据是无用的,不能产生价值的。二八法则又叫帕累托法则，如下帕累托图。

这个图展示的就是迟到的原因，就是一个很典型的二八法则，大部分原因还是集中在前面80%。而最后两种20%的情况，却产生了80%的效果。

应用

数据中20%的变量将直接产生80%的效果，数据分析应该围绕着20%做文章。
持续关注topN的数据，是一个非常好的习惯，尤其在部分行业。也就是关注排名最前的那10或者20类，比如一个销售总监，她最关注的就是那最出色的20名销售。
虽然指标很多，但往往某些指标更具价值，二八法则不仅能分析数据，也能管理数据。虽然数据分析拆出了很多指标，这里让我们抓住重点的去管理。

总结

核心就是抓住重点，和业务紧密相关，这样能能够花最少的精力就达到不错的效果，性价比很高。but，数据分析也不能漏掉全局！！！

6.对比法

好的数据指标，一定是比例或者比率。
好的数据分析，一定会用到对比。

来，我们上案例：

知道老王今天卖了多少，这个实际上没啥意义。
知道了昨天卖了多少钱，我们可以通过比较看出老王销售呈上升的趋势。
和隔壁对比，我们看到老马卖了2000元，虽然老王的销量呈上升趋势，但实际上老王卖的还是不好的。
通过对比，只能看出老马跌的比较厉害，老王跌的不太厉害，这可能比我们前面的分析价值大，但还是不能说明问题。
因为老王花了3000元砸重金营销了，花费的钱多了。这就考虑到营销的概念。
几百亿资产，就应该是去看更多，而不是现在的这几千元，就没啥意义。

通过这个案例我们可以看出，孤立的看数据有时候意义不大，应该对比着来看。

问题：

节日大促，女生消费占比从60%变为70%，可以看出女生节假日爱消费吗？

占比提高，但是用实际数据可以看出，女生反而购买金额降低了，反而没有买买买了。虽然节日有活动，但是这时候要记得竞争对手，万一竞争对手准备了一个超级大促销，女生都跑到竞争对手那去了，所以销量是降低了。

通过这个例子我们可以看出，孤数不准，很多时候我们要把数据多对比，和自己的历史数据对比，和竞争对手的数据对比，和各种因素对比等等。

可以考虑对比的因素如下：

总结

一次合格的数据分析，是会用到N次对比的！！

7.漏斗法

先上图直观理解一下漏斗：

但就通过上面的漏斗我们有用吗？虽然是过程转化率，但是没有用的，比如我们得到下单转化率是20%，这有什么用呢？我们怎么知道这个20%是好还是坏呢？你跟竞争对手比过吗？和过去的历史数据比过吗?

因此我们结合刚刚提到的对比法，进一步改进，如下图：

总结

单一的漏斗是没有使用意义的，我们要结合其它的思维，比如我们刚刚提到的对比法等。

如何在业余时间锻炼数据分析思维？

之前，大家都认为啤酒放在尿布边会增加啤酒的销量。但是大家有考虑过：
思维

买啤酒的人都会买尿布吗？？？？？这种方法只是带动了想买尿布的人去买啤酒。
尿布旁边摆放的东西，啤酒一定是最佳选择吗?这也不一定啊，和婴儿更相关的东西可能会更优，比如婴儿的奶粉等等。因为可能妈妈们去买呀。超市的目的不是单纯提高啤酒的销量，而应该是整个超市的销量达到最大化！
假设啤酒摆放是对的，那是摆放部分还是全品类呢？价格低的还是高的呢？这些都是讲究。
场景型的摆放是否比品类型的摆放更好呢？现在超市大部分还是品类型的摆放，那为什么呢？
数据呢？销量提高了多少呢？要用指标来说话呀。

生活中练习思维

在实际生活中，要想锻炼我们的好奇心思维，就应该多练习，比如我们走在夜市上，可以思考以下的一些问题：

生活中有很多地方可以提高我们的分析思维，第一是先预估，第二是怎么改进。
利用这一种思维，比如进到超市，预估一下超市营业额，再想一下要怎么改进呢。电梯广告、药店销售这些都可以。

工作中练习思维

去思考不被认可的分析原因；站在更高的角度去考虑；复盘，回看自己之前出现的问题，当然这也需要记笔记、保留数据的习惯；对历史分析去不断优化和迭代，学会总结。