拖拖拉拉两个月,终于看完了今年第一本书——《赤裸裸的统计学》,本书作者采用故事性叙述,梳理了统计学中基础而关键的知识点,作为统计学的科普读物,表述更容易让外行人接受。笔者根据自身理解对其中部分内容进行了小结,并结合《数据产品经理必修课:从零经验到令人惊艳》一书的统计学部分内容进行补充,整体以前者为主,感兴趣的同学推荐阅读两本原书。

一、描述性统计

1、均值、中值、分位数

《赤裸裸的统计学》在开篇提出一个问题:美国中产阶级的经济健康状况出了什么问题?通过计算 30 年间美国人均收入,得出人均年收入从 1980 年的 7787 美元上升到 2010 年的 26487 美元。即使不考虑通货膨胀,这个数值也不能很好地回答提出的问题,因为美国人均收入不能代表中产阶级收入水平。从而引出的概念是均值、中值、分位数(定义不再赘述)。
因均值对离群值十分敏感,所以在评价某个目标的整体水平时要谨慎采用。正如我们也对人均收入所吐槽的那样,被老马平均了的话,恐怕是不符合我们对自己收入水平的印象。而用中值,会让我们有更清晰的认知(图源网络,侵删)。

分位数让我们有更多样的切入点,例如常用的四分位乃至更精细的百分位,前 1% 的人收入是多少?自己处于 n% 的位置?如下图所示,第 90 百分位数是指收入从小到大排序时靠后的一侧,即排名在前 10% 的富人收入,作者由此指出:典型的美国工人挣着中位数工资,在原地踏步了将近 30 年。

2、方差、标准差

标准差用于衡量数据相对于平均值的分散程度。例如一次航班中旅客的平均体重,极有可能与一次马拉松中运动员的平均体重相当,但显然旅客的体重分布会更加分散,因此标准差还可用于分析两个数据样本是否相似。此外,《赤裸裸的统计学》作者表示:计算方差时对每个数值和平均值之差都进行了平方,离群值会被放大,在描述统计学中,往往不用方差而用标准差。关于这点,笔者在《数据产品经理必修课…》中读到的解释也值得思考——标准差能解答量纲(单位)的意义,仍以体重为例,单位是 kgkgkg,那么在方差计算中 kg2kg^{2}kg2 失去了现实意义。另外,其实标准差的诞生比方差早了快20年。公式如下(CSDN 的 LaTeX 求和符号显示有 BUG…):

σ2=∑i=1n(xi−xˉ)2n.(σ2为方差,σ为标准差)\sigma^{2} = \frac{\sum_{i=1}^n(x_{i}-\bar x)^{2}}{n}.(\sigma^{2} 为方差,\sigma 为标准差) σ2=n∑i=1n​(xi​−xˉ)2​.(σ2为方差,σ为标准差)

二、相关性统计

1、三大相关系数

(1)Pearson

《赤裸裸的统计学》介绍的是 Pearson 相关系数(r),主要用于衡量连续型变量间的线性关系,对满足正态分布的数据表现更好。
r=∑i=1n(xi−xˉ)(yi−yˉ)nσxσy=cov(x,y)σxσy.(cov(x,y)为协方差)r = \frac{\sum_{i=1}^n(x_{i}-\bar x)(y_{i}-\bar y)}{n\sigma_{x}\sigma_{y}}= \frac{cov(x,y)}{\sigma_{x}\sigma_{y}}.(cov(x,y)为协方差)r=nσx​σy​∑i=1n​(xi​−xˉ)(yi​−yˉ​)​=σx​σy​cov(x,y)​.(cov(x,y)为协方差)

(2)Spearman Rank

补充记录一下三大相关系数的另外两个。Spearman Rank 相关系数(ρ),生成两个变量在其组内的排位数 Ui和ViU_{i}和V_{i}Ui​和Vi​,再计算排位差。主要用于单调关系,可以处理离群值。

x y U V U-V
66 52 4 3 1
88 53 2 2 0
77 54 3 1 2
99 51 1 4 -3

ρ=1−6∗∑i=1n(Ui−Vi)2n(n2−1).\rho = 1- \frac{6*\sum_{i=1}^n(U_{i}-V_{i})^{2}}{n(n^{2}-1)}.ρ=1−n(n2−1)6∗∑i=1n​(Ui​−Vi​)2​.

(3)Kendall Rank

Kendall Rank 相关系数(R),和 Spearman 一样利用了排序,不同之处在于 Kendall 先对一个变量进行组内排序,再将另一个变量根据原始对应关系进行排列,根据排位变化得到同序对数量 P (concordant pairs) 。如下表先对 x 排序, 则 V 中的同序对是指排序变化后同步增大的顺序对,例如总顺序对包括:(1,2), (1,3), (1,4), (2,3), (2,4), (3,4),其中 (1,3), (2,3) 是同序对,即 P = 2,其余为异序对(discordant pairs),因为排序变化后 2 排在了 3 的前面且 2 对应的 y > 3 对应的 y(1,3) 同理。R 等于同序对数和异序对数之差除以总对数。

x y U V P
99 51 1 4 0
88 53 2 2 1
77 54 3 1 1
66 52 4 3 0

R=P−(n(n−1)2−P)n(n−1)2=4Pn(n−1)−1.R= \frac{P-(\frac{n(n-1)}{2}-P)}{\frac{n(n-1)}{2}} = \frac{4P}{n(n-1)}-1.R=2n(n−1)​P−(2n(n−1)​−P)​=n(n−1)4P​−1.

在 pandas 中可以利用 corr() 计算相关系数,通过 method 参数指定计算方法。

2、卡方

《数据产品经理必修课…》在相关系数之前提及了卡方(X2X^{2}X2),用于反映两个变量是否相关,基于实际观测值与理论推断值之间的偏离程度来体现。以性别对化妆行为的影响为例,如下表为实际观测值。

合计
化妆 15 95 110
不化妆 85 5 90
合计 100 100 200

下表为理论推断值,假设化妆与否与性别不相关,则性别分布应当一致。

合计
化妆 55 55 110
不化妆 45 45 90
合计 100 100 200

卡方即为理论值和实际值之差除以实际值的平方和,本例中结果等于 129.3。
X2=∑i=1n(fi−pi)2pi=(15−55)255+...+(5−45)245X^{2} =\sum_{i=1}^n \frac{(f_{i}-p_{i})^{2}}{p_{i}}= \frac{(15-55)^{2}}{55}+...+ \frac{(5-45)^{2}}{45}X2=i=1∑n​pi​(fi​−pi​)2​=55(15−55)2​+...+45(5−45)2​

根据卡方值概率表,化妆与否与性别不相关的概率远远小于 0.1%,该假设被推翻,结论即为性别对化妆行为有影响。

P 50% 25% 10% 5% 1% 0.5% 0.1%
X2X^{2}X2 0.455 1.323 2.706 3.841 6.635 7.879 10.828

三、概率的现实意义

我们该如何利用概率去思考现实问题?《赤裸裸的统计学》讲述了几个有趣的故事展现了概率的魅力,笔者简述其三。

1、营销

施利茨啤酒在 1981 年的美国橄榄球超级杯大赛中场休息时举行了啤酒品鉴会,施利茨应如何保证多数品酒人给自己的产品好评?当然不是努力提升自家产品品质(因为跟别家的喝起来其实都差不多),而是与竞争对手的啤酒放在一起盲品。
在味道相近的情况下,我们可以认为任意一个品酒人有 50% 的概率盲选出施利茨,而营销的秘诀就是:品酒人不是随机的路人,而是另一个品牌啤酒的爱好者,如此一来,即使最终结果只有不到一半的人蒙中了施利茨,施利茨依然可以说自己从其他品牌的忠实客户中夺取了一部分市场,以说明自家的啤酒更好喝。
比如,10 人中至少 4 人选中施利茨的概率是多少?注意,不是连续 4 人选中的概率(124\frac{1}{2^{4}}241​)。我们可以先想想 3 人中至少 2 人选中的概率:3 人品酒出现的选择组合总共有 232^{3}23 即 8 种可能,其中至少有 2 个人选中的组合有 4 种,故所求概率为 50%。

如下,甲、乙、丙三人可能的选择组合,1 表示选中施利茨:
甲乙丙
0 0 0
0 0 1
0 1 0
0 1 1 ←
1 0 0
1 0 1 ←
1 1 0 ←
1 1 1 ←

理解了计算思路后,利用组合公式可求 10 人中至少 4 人选中施利茨的概率约等于 83%,可见施利茨的这场营销胜算很大(实际结果也很成功)。

P(k≥4)=C104+C105+...+C1010210=0.828125P(k≥4)= \frac{C_{10}^{4}+C_{10}^{5}+...+C_{10}^{10}}{2^{10}}=0.828125P(k≥4)=210C104​+C105​+...+C1010​​=0.828125

书中结果为 98%,但未给出计算过程,若此处笔者理解有误还请路过的大佬指出,Python 计算结果与上述公式一致:

from itertools import productgrp_lst = [i for i in product([1, 0], repeat=10)]
target = [i for i in grp_lst if i.count(1) >= 4]
P = len(target)/len(grp_lst)  # 0.828125

2、彩票

比起书中用美元的描述,笔者认为换成我们更为熟悉的刮刮乐(笔者一点也不熟)来举例更合适。假设需花 10 元买一张刮刮乐,刮中 5 元的概率是 1/10,刮中 10 元的概率是 1/20,刮中 100 元的概率是 1/50,那么回报期望 p=510+1020+10050=3p= \frac{5}{10}+ \frac{10}{20}+ \frac{100}{50}=3p=105​+2010​+50100​=3,明显低于投入成本,所以永远不要买彩票!(行善积德也不行吗) 另外虽然保险公司也很擅长玩弄概率,但作者仍表示可以买必要的意外险。

3、三门问题

电视节目主持人蒙提霍尔让你在三扇门中选一扇进行抽奖,一号门:羊 1;二号门:羊 2;三号门:汽车,当你选择一扇门后,主持人会在剩下的门里打开一扇有羊的门,并问你是否要改选。直觉而言,选任意门中奖概率都是 1/3,但改选会使得这个概率上升。
反直觉的点在于,主持人开门前,想中汽车大奖对你而言确实是完全随机的三选一,但主持人是知道每扇门后的答案的,一旦主持人公开一扇门,假如你原本选的是羊,那么你改选就不可能再选到羊,也就是说——改选后中奖的概率等于最初选中羊的概率,是 2/3。

原本选羊 1,主持人开羊 2,改选车
原本选羊 2,主持人开羊 1,改选车
原本选汽车,主持人开羊 1 或 2,改选羊 2 或 1

四、抽样与误差

1、中心极限定理

中心极限定理的核心要义:一个大型样本的正确抽样与其所代表的群体存在相似关系。每个样本之间肯定会存在差异,但是任一样本与整体之间存在巨大差异的概率是较低的。具体的表现是,从同一个群体中多次抽样,每个样本的均值会落在群体均值的周围,呈现正态分布。终于出现了,统计学的王者——正态分布!正态分布是一个中间高两头低的钟形曲线,中间即是均值,抽样落在均值外 1 个标准差内的概率是 68.2%,2 个标准差内的概率是 95.4%,3 个标准差内的概率是 99.7%。

2、标准误差

而通过计算标准误差,即可知样本均值偏离群体均值的程度,标准误差就是所有样本均值的标准差。作者以寻找失踪的运动员大巴为例,若一辆大巴乘客的体重均值与所有运动员体重均值相差几个标准误差,则这辆车大概率不是要找的目标,以此说明如何判断某个样本是否属于一个大型样本的抽样。
SE=sn.(s为群体标准差,n为样本数量)SE=\frac{s}{\sqrt{n}}.(s 为群体标准差, n为样本数量)SE=n​s​.(s为群体标准差,n为样本数量)

3、百分比标准误差

作者以美国大选民调为例,在最终结果出炉前对 500 人进行选举后调查以预测结果,其中 53% 选择了 A 派,47% 选择了 B 派,那么以选 A 派为目标事件,计算标准误差约等于 2%,此时即有 68% 的把握声称大选中有 51% ~ 55% (53±2)的人投了 A 派的票,有 95% 的把握声称大选中有 49% ~ 57% (53±4)的人投了 A 派的票,采用后者作为大选结果的预测更准确了,但精确度也下降了(误差幅度增大)。上述某事件的人群比例所在的范围,又称作置信区间
但同时,也有 95% 的把握声称大选中有 43% ~ 51% (47±4)的人投了 B 派的票,两个置信区间有所重叠,使得预测结果可信度不高。可通过增加调查人数来减小标准误差,若对 2000 人进行调查后比例基本不改变,则标准误差约等于 1%,此时即有 95% 的把握声称大选中有 51% ~ 55% 的人选了 A 派,45% ~ 49% 的人选了 B 派,可以宣布 A 派的胜利了。

SE=p(1−p)n.(p为目标对象比例,n为总体对象数量)SE=\sqrt{\frac{p(1-p)}{n}}.(p为目标对象比例,n为总体对象数量)SE=np(1−p)​​.(p为目标对象比例,n为总体对象数量)

五、统计推断与假设检验

统计推断,即是基于数据统计去推断现象的成因,在推断过程中最常做的就是假设检验。在进行假设检验时,会设立零假设对立(备择)假设

案例一
零假设:某种新药在预防疟疾方面并没有比安慰剂更加有效。
对立假设:该新药能够帮助预防疟疾。
数据:随机选取一个小组服用新药,另一个小组作为对照组服用安慰剂。一段时间过后,服用新药的小组的疟疾发病率要远低于对照组。如果该新药不具备任何疗效,那么出现这一结果的概率是非常低的。因此,我们推翻该新药没有疗效的零假设,承认其对立假设成立,即该新药能够帮助预防疟疾。

案例二
零假设:为犯人提供戒毒治疗并不能降低他们再次被捕入狱的概率。
对立假设:犯人在坐牢期间接受戒毒治疗,有助于降低他们出狱后再次被捕入狱的概率。
数据:犯人被随机分成两组,治疗组接受戒毒治疗,对照组没有接受治疗。(事实上,很多犯人在服刑期间真的接受了戒除毒瘾的医疗帮助。)5年后,两个小组的犯人再次被捕入狱的比例相近。在这个例子中,我们无法推翻零假设,根据这个数据,我们没有理由推翻一开始“戒毒疗法不能有效地阻止犯人再次入狱”的假设。

通常,推翻零假设所需要的标准为不超过 5%,一般写作 0.05,这个标准被称作显著性水平。在指定的显著性水平下,零假设成立的概率未超过该值,则零假设不成立,对立假设成立。

检验可分单尾检验双尾检验,例如对立假设一:篮球运动员身高比普通人更高;对立假设二:篮球运动员身高与普通人不同,分别对应单尾和双尾。

六、线性关系与回归分析

1、线性回归

据《数据产品经理必修课》,线性回归起源于生物学家高尔顿对父子身高的研究,高尔顿分析了 1078 对父子的身高数据,发现满足一个公式:Y=0.8567+0.516X,其中 X 是父亲的身高,而 Y 是儿子的身高,这便是线性。然而高尔顿还发现,父亲太高时,孩子会变得矮一些;父亲太矮时,孩子会变得高一些,也就是说历代个体的身高总是围绕着一个中心,偏离中心太远时,就会回归,这便是线性回归的由来。而影响孩子身高的变量不仅仅是父亲的身高,还有许多其他的因素,因此公式还可继续优化成:Y=0.8567+0.516X1+b*X2+c*X3+...,也就是说,线性回归可以探索多个变量与另一个变量之间的线性关系。
《赤裸裸的统计学》中也用了类似例子,探究的是体重与身高的关系,并逐步增加了年龄、性别、受教育时间等变量的影响。

其中还提到了几个重要的概念:

(1)残差

残差,即是每个数据点和直线的垂直距离,落在直线上的点残差即为 0,残差和越小,回归线越准确。

(2)R2R^{2}R2

用以衡量所有能够用回归方程表示的数据总和,反映了回归线与实际样本的拟合程度,越接近 1 表示拟合度越高。
R2=1−∑i=1n(fi−yi)2∑i=1n(yi−yˉ)2(fi为预测值,yi为实际值).R^{2} = 1- \frac{\sum_{i=1}^n(f_{i}-y_{i})^{2}}{\sum_{i=1}^n(y_{i}-\bar y)^{2}}(f_{i}为预测值,y_{i}为实际值).R2=1−∑i=1n​(yi​−yˉ​)2∑i=1n​(fi​−yi​)2​(fi​为预测值,yi​为实际值).

(3)最小二乘法

最小二乘法(OLS)就是可找出最佳拟合回归线的方法。笔者对其原理思考良久,不能归纳出比网上资料更简明直观的内容,还是自行查阅资料更方便 ,推荐一篇讲的很好的文章:如何理解最小二乘法?

2、注意易错点

(1)不可用回归方程式来分析非线性关系

(2)相关关系不等于因果关系

(3)不可因果倒置

(4)谨防变量遗漏偏差

(5)避免多元共线性

(6)不可脱离数据进行推断

(7)变量不宜过多

七、实验方法

1、随机控制实验

2、自然实验

3、非对等对照实验

4、差分类差分实验

八、操纵数据,或被操纵

《赤裸裸的统计学》第三章:数字会撒谎、第九章:数据与偏见,笔者将其整合放在最后。在理解了前面的技术性原理后,再来警惕这个双刃剑:数据或许有着它本身的意义,但表达意义的方式和方向是人为操纵的,我们可以从数据中轻易得到希望看到的事实。

1、精确与准确

精确反映了我们描述数据的粒度,准确则是描述数据的方向。不准确的数据,再精确也没有意义。

2、误导性表述

作者举的例子太经典了,笔者不多赘述。

案例一:
政客甲(挑战者):“我们的教育水平正变得越来越糟!2013年有6成学
校的考试成绩低于 2012 年。”
政客乙(在任者):“我们的教育水平正变得越来越好!2013 年有8成学
生的考试成绩高于 2012 年。”

案例二:
政客甲(平民主义者):“我们的经济一塌糊涂!2012 年有30 个州的收
入都出现了下滑。”
政客乙(更接近精英派):“我们的经济走势一片光明。2012年有70%的
美国人的收入都增加了。”

3、偏见造谬论

有时候,看似随机的抽样,也隐藏着意外的偏见。例如在 80 年代进行随机电话民调,看似是一种随机的方式,能够访问到不同的人群,但是在 80年代的家里装了电话本身,就是一个经济指标,受访者人群可能都是较富裕的。幸存者偏差的例子不多赘述。

九、小结

统计学,太有趣了。这里是一头雾水的 Seon塞翁,我们下一篇见。

统计学笔记:赤裸裸的数据任人打扮相关推荐

  1. 赤裸裸的统计学:除去大数据的枯燥外衣,呈现真实的数字之美 - 电子书下载 -(百度网盘 高清版PDF格式)...

    赤裸裸的统计学:除去大数据的枯燥外衣,呈现真实的数字之美-[美]查尔斯·韦兰 在线阅读                   百度网盘下载(bkgy) 书名:赤裸裸的统计学:除去大数据的枯燥外衣,呈现真 ...

  2. 文件夹中是微信的好友列表数据,冒号前是一个用户,冒号后是该用户的所有好友(数据中的好友关系是单向的),参照笔记,求出哪些人两两之间有共同好友,及他俩的共同好友都有谁?

    题目 文件夹中是微信的好友列表数据,冒号前是一个用户,冒号后是该用户的所有好友(数据中的好友关系是单向的),参照笔记,求出哪些人两两之间有共同好友,及他俩的共同好友都有谁? 本题声明: 1.采用Lin ...

  3. t检验与F检验 /统计常识 / 统计学笔记(2)--随机抽样与统计推断的逻辑

     1,T检验和F检验的由来 一般而言,为了确定从样本(sample)统计结果推论至总体时所犯错的概率,我们会利用统计学家所开发的一些统计方法,进行统计检定. 通过把所得到的统计检定值,与统计学家建立了 ...

  4. [统计学笔记九] 方差分析(ANOVA)

    [统计学笔记九] 方差分析(ANOVA) 方差分析(Analysis of Variance,简称ANOVA) 方差分析(ANOVA)又称"变异数分析"或"F检验&quo ...

  5. 反斜杠,让您的csv文档字符不撞车;让“借”您csv数据的人叫苦不迭。

    [点击此处跳转笔记正文] Python 官网:https://www.python.org/ Free:大咖免费"圣经"教程< python 完全自学教程>,不仅仅是基 ...

  6. 5000字 大数据时代读书笔记_大数据时代读书笔记

    大数据时代读书笔记 [篇一:大数据时代读书笔记] 大数据时代 -- 读书笔记 一.引论 1. 大数据时代的三个转变: 1. 可以分析更多的数据,处理和某个现象相关的所有数据,而不是 随机采样 2. 不 ...

  7. 关于数据治理的读书笔记 - 什么是数据治理?

    <关于数据治理的读书笔记 - 数据治理.数据管理和数据管控的理解>我们了解了有关数据治理.数据管理和数据管控,这几个名词之间的区别和联系,回到数据治理的话题上,数据治理究竟是什么? 站在不 ...

  8. 【 数据集加载 DatasetDataLoader 模块实现与源码详解 深度学习 Pytorch笔记 B站刘二大人 (7/10)】

    数据集加载 Dataset&DataLoader 模块实现与源码详解 深度学习 Pytorch笔记 B站刘二大人 (7/10) 模块介绍 在本节中没有关于数学原理的相关介绍,使用的数据集和类型 ...

  9. 【卷积神经网络CNN 实战案例 GoogleNet 实现手写数字识别 源码详解 深度学习 Pytorch笔记 B站刘二大人 (9.5/10)】

    卷积神经网络CNN 实战案例 GoogleNet 实现手写数字识别 源码详解 深度学习 Pytorch笔记 B站刘二大人 (9.5/10) 在上一章已经完成了卷积神经网络的结构分析,并通过各个模块理解 ...

最新文章

  1. Bloom Filter 大规模数据处理利器
  2. 通过QML定义对象类型
  3. leetcode 6 --- convertZ
  4. JavaWeb项目实战(3)软件快速下载
  5. mvvm绑定checkbox wpf_LoxodonFramework 数据双向绑定 通过控制数据流向防止更新死循环...
  6. (转载)Druid创始人Eric Tschetter详解开源实时大数据分析系统Druid
  7. 拉普拉斯(逆)变换的计算
  8. 服务器无线网卡做ap,通过TP-Link无线网卡设置虚拟AP 看完就明白
  9. 常见前端bug及其修复方法_50个最常见的WordPress错误及其修复方法
  10. 南宁琅东的机器人餐厅_南宁埌东藏着一个秘密花园,每天一大波年轻男女进进出出…...
  11. 使用PS实现简单的名片制作
  12. c++标准扩展TR1
  13. ug10.0许可证服务器失败,ug10.0许可错误
  14. 智慧校园是实现智慧教育的必由之路
  15. 一名非典型二流学生的自述 | 我是如何从菜鸟进化到辣鸡的
  16. 活着就为改变世界 -- 目录
  17. 投资理财-财富的思考
  18. 2021年N1叉车司机模拟考试题及N1叉车司机作业模拟考试
  19. 9针RS232C串口故障检测
  20. 学习unity能够做什么

热门文章

  1. [安全科普]***F***实例解析
  2. C语言验证四色定理并输出所有染色方案
  3. 6个座位办公室最佳位置_办公室座位禁忌办公室座位最佳朝向
  4. 【数据分析】-A/B测试
  5. “考试包过”?买考研真题答案?买“内部资料”?这些都是谣言!
  6. 联想Z50-70 部分U? BOM
  7. 数理逻辑 Review
  8. 六、华为云数据库GaussDB(for openGauss)
  9. 史蒂夫·鲍尔默关于.NET平台的讲演
  10. ROS2中用MoveIt2控制自己的舵机机械手(3)