我们在思考问题时,当尽量避免因为自己的无知,提出一些低级的问题来。

我经常会被一些低级的问题,搞得没了耐心。比如下面这样的:

为什么高考状元,最后都很平庸?

我读了清北,以后可以进投行吗?

为什么学区房那么值钱,但学历不值钱?

为什么一个哈佛毕业的,收入还干不过咪蒙?

在这里我还是要推荐下我自己建的大数据学习交流qq裙: 957205962, 裙 里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据开发相关的),包括我自己整理的一份2018最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴

上面这些问题,在很多场合都引起了广泛讨论。比如学区房和学历那个,不少人找了一堆理由来解释。但在我眼里,它们都是很低级的问题。

为什么?

因为它们都包含了极其低级的,不符合统计学常识的错误。具体有哪些错误,后面我会提到。

如果提问者懂一些统计学的常识,很多问题根本就不应该被提出来。要避免犯蠢,提出合理的科学的问题,就应该懂一些基本的统计常识。

以下内容,学过数学/统计学/计量经济学的同学,应该知道我在说什么。如果你不知道,那请你回去面壁思过一下。

1

样本偏差

人们习惯通过很少的观察值,就得出结论。这样的结论,往往就存在样本不足导致的偏差。

比如,你说吸烟有害健康,劝身边人戒烟。烟民们常用的借口是这样的:

你看隔壁王大爷,都九十岁了,抽烟抽了一辈子,照样健健康康的。张二蛋,烟酒不沾,三十岁就归了西。所以呀,抽烟有害健康,都是扯淡骗人的!

比如,有人跟踪过每年的高考状元后来的职业发展路径,最终发现这些状元,绝大多数并没有成为人中龙凤,国之栋梁,于是他们得出结论:

高考状元最终将走向平庸,高考对筛选人才并没什么卵用!

再比如,几个清北毕业的人,上知乎回答了个问题,说自己清北毕业,也买不起学区房,甚至也在北京留不下来,于是就有人得出结论:

清北的学历不如学区房值钱!

以上的例子,统统犯了小样本偏差的统计错误。换句话说,考察的样本太少,根本不可能得出可靠的结论。

看吸烟是否有害健康,应该看的是整个烟民群体和非烟民群体的比较,光一个王大爷和张二蛋怎么能得出结论。

高考状元的容量加起来不过几百人,但非状元人数上千万,几千万人当中出现马云马化腾,当然更正常。

说清北毕业买不起房的,也只是发声的少数人,而那些闷声发大财的清北人,看到这样的结论,恐怕只会默默地骂一句SB。

说到样本偏差,就必须提到有名的「红球实验」。

假设有两个盒子:A和B.

在这里我还是要推荐下我自己建的大数据学习交流qq裙: 957205962, 裙 里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据开发相关的),包括我自己整理的一份2018最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴

A盒:2/3的红球,1/3的蓝球。

B盒:2/3的蓝球,1/3的红球。

现在我们把两个盒子遮起来,从中随机抽取小球出来。换句话说,这个时候,你不知道哪个是A哪个是B,只知道盒子1和盒子2。

我们从盒子1当中抽取了4个红球和1个蓝球,一共5个。从盒子2当中,抽取了20个红球,10个蓝球,一共30个。也即是:

盒子1:4个红球,1个蓝球,共5个。

盒子2:20个红球,10个蓝球,共30个。

现在问,哪个盒子更有可能是A盒,是1还是2?

多数人的答案是1。因为1当中红球的概率是80%,而2当中只有67%。A盒当中的红球概率更高,所以1是A盒。

但答案恰恰相反,盒子2才更有可能是A盒。因为在更多的样本量下,它保证了红球的概率远高于蓝球。

学过概率论的同学应该马上反应出来,这是一个典型的条件概率问题,用贝叶斯公式可以很容易计算:

P(A|1)=P(A1)/P(1)=P(A1)/(P(A1)+P(B1))=0.89.

P(A|2)=P(A2)/P(2)=P(A2)/(P(A2)+P(B2))=0.99.

看不懂公式的同学可以略过,你需要记住一点即可:

统计推断,样本量越大,越可靠。基于小样本的结论,往往都存在问题。

以后不要再很蠢地说,你看,名校毕业的也在北京买不起房,所以学历没什么卵用。

2

相关性

混淆相关和因果,不能建立多元相关思维模型,简直是人们犯蠢的重灾区!

因果的意思是,A的发生必然会导致B,B的发生必然以A的发生为前提。相关则不一定,仅仅可能是A,B同时发生了。

比如暴饮暴食导致胃痛,就是一种因果关系。吃太多胃承受不了,必然会痛。胃之所以会痛,就是因为你吃了太多东西进去(控制其他变量的前提下)。

但名校毕业和赚很多钱,这就不是因果关系。这只是一种相关关系,而且是一种多元的相关关系

换句话说,赚钱这个事实,不仅和学校学历相关,还和很多其他因素相关,比如长相、行业、冒险精神等等。

现在明白我为什么说上面那些问题很蠢了吧。谁告诉你清北毕业就一定可以去投行?同理,谁告诉你,哈佛的学生就一定比咪蒙赚钱赚得多?

清北毕业和去投行,只是相关性,且只是相关因子当中的一个,同理,哈佛毕业和赚钱多,也是这个道理。

如果把一个结果称为Y,诸多和它相关的因素称为X,那么Y和X的关系应该是:

Y=AX.

其中A=[a0,a1,a2...an], X=[x0,x1,x2…xn]’

以上是一个最基本的多元相关模型。比如,赚钱是Y,那它对应的X,包括了学历、起始资本(家庭背景)、努力程度、长相,等等。

如果以多元相关模型来思考问题,根本就不可能提出为什么一个哈佛的还不如咪蒙赚得多这种愚蠢的问题。

明白了这一点,你也不会再提凭什么奶茶长得好看就可以搞定东哥,为什么美联储加息了股票反而上涨,名校毕业的不如技校毕业的赚得多,这一类愚蠢的问题了。

在这里我还是要推荐下我自己建的大数据学习交流qq裙: 957205962, 裙 里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据开发相关的),包括我自己整理的一份2018最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴

简单来说,记住一点:

事情的发生,往往都是一个复杂系统里,多因素共同作用的结果。

凡事都尽量避免用单因素模型去解释。这是避免你变得很蠢的重要思维法宝。

3

控制变量

控制变量的意思是,控制了这个因素,来看其他因素对事物发生的影响。最直观的表达就是 “假设其他条件不变的情况下”,这种假设,就是很典型的一种控制变量的假设。

回到我们之前讨论的名校毕业挣钱不多的问题,名校毕业照样买不起学区房,很多人据此得出结论:

名校也没什么卵用,甚至上大学也没什么卵用,照样买不起房,还不如王小二开个煎饼摊子挣得多。

这个推理最大的问题就是控制变量的不可比。

你在对比名校毕业生和开早餐铺子的王小二时,隐含了一个极为重要的有关控制变量的假设:

除去学历这个因素,其他条件都是一样,且不变的。

但很显然,一个清北毕业生和没上过大学的王小二,除去学历的不同,在其他方面,也就是控制变量方面,也存在巨大的差异!

换个思路,不用横向对比,纵向来看,假设其他条件不变的情况下,一个清北毕业生,没有清北的学历,他会过得更好还是更惨?

这样的比较才是有意义的。

同理,也只有比较具有类似家庭背景,长相水平,努力程度的清北毕业生和一般学校甚至没上过大学的人,他们谁挣钱多,这样的比较才是有意义的。

英文当中有个很好的表达叫 Apple to Apple,就是比较对象要要一致。可惜我们大部分人做的都是Pear to Apple这样的比较,毫无意义。

再说一遍,我们考察单一变量对结果的影响时,一定要保持控制变量的不变且可比。不然这样比较得出的结论,毫无意义。

你不能因为天天撩妹的王思聪,比天天工作十六小时的投行民工,钱更多,就据此否认努力工作没有用。你也不能因为同学有个好爸爸,就否认平民家庭出身的人奋斗没有意义。

在考察努力这一变量对成功的影响上,你和王思聪的“控制变量相同”的假设并不成立

反过来,就你自己而言,控制其他变量不变,你不努力和努力的结果差异,一下子就会清晰起来。这才是思考问题的正确方式。

不少反鸡汤人士认为,努力没什么用,家庭出身决定一切,先天条件决定一切,时代大势决定一切,这些论点,统统都是愚蠢的,也是错误的,因为他们忽略了控制变量的因素。

在这里我还是要推荐下我自己建的大数据学习交流qq裙: 957205962, 裙 里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据开发相关的),包括我自己整理的一份2018最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴

4

系统思维

统计常识除了以上三点,还有很多。比如假设检验,样本和母体的关系,统计一类和二类错误,置信水平等等,文章里没办法一一讲述。

但我认为,弄清本文的三个基本常识,已经可以帮你避免很多愚蠢的错误。这些常识不是相互孤立的,在考察问题的过程当中,常常会同时运用到它们。

比如还是说名校毕业生买房的问题。

首先要问,是不是真的清北毕业生就买不起学区房,这个样本到底有多大?是不是小样本偏差,或者幸存者偏差得出的这个结论?

其次我们要想,清北毕业生买不起学区房,是一件多么令人惊讶的事情吗?当然不是,因为挣钱这个事情,本身并不只和学历相关,它还和很多其他因素相关。

也因此,名校毕业的同学,也不要总觉得自己有什么了不起,你得清晰地意识到,收入水平和你的教育程度,并非因果关系。意识到这一点,能让你认清真相,接受现实,并更好得在其他方面去努力。

最后,因为其他方面的因素,比如家庭出身,比如行业影响,即使名校毕业真的也买不起房,你就要因此感到沮丧和否定名校教育带给你的价值了吗?当然不应该!

因为控制变量的思想告诉你,其他条件不变的情况下,你读不读名校,收入的差异还是非常显著的。

综合以上,我们在思考问题时,当尽量避免因为自己的无知,提出一些低级的问题来。

今天小编想和你聊聊的,是学好统计的现实好处。

第一,学会看问题,懂得数字的意义。

例如,新闻报道中经常说某市人均收入为1万元。每每出现这样的报道,就有很多网友惊呼自己被平均了。为什么会造成这样的认知错觉呢?这是因为新闻报道并没有告诉我们数据的分布是什么样的。比方说,可能有20%的人掌握了80%的收入,余下80%的人掌握了总收入的20%,那这80%的人肯定觉得自己被平均了。所以,学过统计的人,当看到这样的数字的时候,就会多问几个为什么,就能明白数字背后的真实含义了。

此外,如果你学了统计学的抽样原理,或许你会进一步质疑,这个人均收入是怎么算出来的。是统计了全市所有人口的收入数据,还是只抽取了一部分人的收入数据。如果是抽取了一部分人,是按照什么原则抽取的?这些都会影响到数据的真实性与可信性。

第二,用数据说话,让你的说服力要爆表。

当你向领导汇报工作的时候。

新人甲是这么汇报的:

今年我们在华东市场一共投入了100万元推广费用。我们做了很多有影响力的活动,产生了良好的品牌效果。用户对我们的产品非常认可,在使用后很多都成为我们的忠诚的用户。我们在华东地区的市场占有率进一步提升。我希望明年能加大在这一地区的投入,以便产生更好的市场效果。

新人乙是这么汇报的:

今年我们在华东市场一共投入了100万元推广费用。其中,投放广告50万,落地活动宣传30万,促销样品20万。共带来3万新增用户,提升市场占有率5个百分点,预计在未来一年提升这一地区的销售额500万元。

如果你是领导,你会喜欢哪个汇报?

很显然,大部分人会选择后者。清晰的数据能传达清晰的信息。那些非常、很多、进一步写在公文里或许还可以,但是在市场汇报中,这种词汇简直就是一团浆糊。领导早晨在家里已经挨训了,你就不要给领导添堵啦。

第三,体验到一种与众不同的思维方式。

最近朋友圈流行两只大熊猫的萌对话,其中一只对另一只说,你看看我们,就知道这个世界非黑即白。另外一只大熊猫于是伸出了红色的舌头。这个笑话告诉我们,世界并非非黑即白。统计学的思维就是永远不肯定这个世界到底是什么样子的。统计学永远是讲概率的,就是可能性。庄子说,一尺之锤,日取其半,而万世不竭。这就是一种概率思维方式。所以,嗯,我喜欢宋冬野,他唱到:昨天晚上,我差一点就他妈地死了。他到底死没死啊。可能性,是最值得人玩味的。

第四,像佛那样懂因果,知报应。

统计学常常研究两个因素之间的关系,叫做因果关系。例如,你的学历对你收入的影响。统计学家可能会说,学历每提升一个层次,年收入将提高1.2万元。所以不要相信读书无用论,你要相信概率。如果你相信自己能成为比尔盖茨,那读书对你确实没意义,同样,这只是小概率事件,基本不会发生在你身上。

大数据时代,你应该具备的大数据思维相关推荐

  1. 云小课|大数据时代的隐私利器-GaussDB(DWS)数据脱敏

    阅识风云是华为云信息大咖,擅长将复杂信息多元化呈现,其出品的一张图(云图说).深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云.更多精彩内容请单击此处. 摘要: 数据仓库服务Ga ...

  2. 欢迎来到大数据时代-----赶快来了解一些大数据的基础知识

    作者刚开始接触大数据不久,现在想通过这篇文章分享一些我学到的,我自己理解的知识:希望大家学有所获. Hadoop离线是大数据生态圈的核心与基石,是整个大数据的入门. linux.hadoop.hive ...

  3. 浅议大数据时代下消防工作、生活和思维的变革

    最近在微信圈流行的段子:一个客户拨打了披萨店的电话,还没说要什么披萨,仅仅告知了他的会员卡号,店员从系统中就知道了他所有个人信息.包括地址.电话.身高体重.医疗记录.过敏史.家里几口人.家里人的健康状 ...

  4. 5000字 大数据时代读书笔记_《大数据时代》读后感5篇

    <大数据时代>读后感 5 篇 对于畅销书刊.热点话题.时尚科技,始终不太感兴趣.书 刊,喜欢有一定年份的.话题,钟情于务虚的观点.新奇的产品 于我无缘,习惯使用成熟的科技产品.既不清高,也 ...

  5. 5000字 大数据时代读书笔记_《大数据时代读书笔记》

    大数据时代读书笔记 本书在讲些什么? <大数据时代>的一大贡献在于大数据方兴未艾.众说纷纭的时刻,进一步 阐述和厘清了大数据的基本概念和特点,这对许多以为大数据就是"数据大&qu ...

  6. 大数据时代是什么意思?大数据是什么?

    界快速虚拟化,数据的来源及其数量正以前所未有的速度增长. 伴随着云计算,大数据.物联网.人工智能等信息技术的快速发展和传统产业数字化的转型,数据量呈现几何级增长,根据市场研究资料显示,全球数据总量将从 ...

  7. 大数据时代:9种从大数据中获取商业价值的方法

    很多大数据都是来自一些新的来源,这代表客户或合作伙伴互动的新渠道.和任何新的数据来源一样,大数据值得探索.通过数据探索,你可以了解一些之前所不知道的商业模式和事实真相. 关于管理大数据的调查显示,89 ...

  8. 【网站架构】云计算、大数据时代如何调用云计算、爬虫数据程序

    本期,我们来聊一下后端程序整合其他应用. 对于这个问题,可能很多人会一笑而过,整合其他应用不就是根据其软件说明对接吗(数据库.SaaS服务)? 但是,云计算.大数据时代,大型网站系统已经不单单是前端. ...

  9. 大数据时代,如何才能发挥大数据在智慧城市建设中的重要作用?

    随着移动互联网.物联网.云计算等新一代信息技术的不断成熟与普及,产生了海量的数据资源,人类社会进入大数据时代.大数据不仅增长迅速,而且已经渗透到各行各业,发展成为重要的生产要素和战略资产,蕴含着巨大的 ...

  10. 深度揭秘:大数据时代企业卖技术还是卖数据?

    大数据技术的热度这几年一直在上升,现在我们在谈论大数据的时候已经不再仅仅局限于炒作大数据的概念了,更多的是聚焦在一些大数据的具体应用上,作为企业用户来讲,现在也已经开始有越来越多的企业领导和IT管理者 ...

最新文章

  1. UDP,你要耗子喂汁呀!
  2. 智慧城市 android,基于Android系统的智慧城市服务客户端的设计与实现
  3. python 出现 AttributeError: matplotlib‘ object has no attribute ‘to_rgba‘
  4. win 2008 server 更改远程桌面端口的方法
  5. 分享一张前端知识点思维导图
  6. html语言书写注意事项,HTML注意事项(学习笔记)
  7. MySQL中使用CASE出错,如何在MySQL中正确使用CASE..WHEN
  8. 【LeetCode笔记】96. 不同的二叉搜索树(Java、动态规划)
  9. JVM(三)对象的生死判定和算法详解
  10. Python 完整学习路线,非常赞!
  11. IOS开发者证书申请及应用上线发布详解(2014版)
  12. macOS分辨率修改器哪个好用?
  13. 厦门大学计算机软件学院,厦门大学软件学院研究生招生信息_厦门大学软件学院2019-研究生招生报名查询系统...
  14. 互联网史话----十亿美金之51
  15. android 图片缩放工具,批量图片缩放软件下载-批量图片缩放 安卓版v1.3.1-PC6安卓网...
  16. 概要设计 重要性_艺术留学——服装设计
  17. CloudCompare 可视化——Scale Filed
  18. golang中使用validator进行数据校验及自定义翻译器
  19. 小辩五笔输入法的高效及拼音输入法的盲目夸大--评所谓整句输入技术
  20. Win11找不到DNS地址怎么办?Win11找不到DNS无法访问网页解决方法

热门文章

  1. 一些GIS地图的基础知识
  2. 使用dockpanel动态添加picturebox并绑定图片
  3. 缠论-2011.4.11晚
  4. 提高网站权重,快速增加百度收录量
  5. java七牛获取访问路径_七牛回调及回调鉴权
  6. 生成长微博(文转图)方法
  7. 给 30 岁左右程序员,4 个突破内卷的破局建议!
  8. C#各语言版本特性介绍
  9. 全力升级篇-基于Mongodb与Nginx负载均衡打造共享单车项目实战 最新完整项目升级版
  10. 谢文的yiqi有戏没?(续)