导读:困扰统计学家60多年的魔咒,时至今日也没有得到彻底解决。

作者:徐晟

来源:大数据DT(ID:hzdashuju)

在做重大决策时,我们总会参考一些统计数据,比如高考前关注学校的录取率,择业时参考各个行业的就业率等。统计数字可以帮助我们比较这些对象的优劣,做出更加合理的决定。但有时,统计数字并不靠谱,基于统计数据的因果推断甚至会出错。

举例来说,假设张三想去医院看病。他收集到了附近两家医院的医疗数据,如表2-1所示。

根据数据,医院A最近治疗了1000个病人,有900人存活,100人死亡,存活率为90%。医院B最近也治疗了1000个病人,有800人存活,200人死亡,存活率为80%。从统计数据来看,似乎医院A比医院B更好一点。

现在我们把收集到的样本数据做一些细分,按照重症病人和非重症病人进行统计,如表2-2所示。

▼表2-2 重症和非重症病人统计

我们只是进一步区分了病人病情的严重程度,结论就被变魔术般改变了。从表2-2中可以看出,无论是重症病人还是非重症病人,不管怎么看,最好的选择都是医院B,这与之前的情况大相径庭。一开始我们只关注整体的存活率,医院A明明是更好的选择,但是如果关心更细的病例存活率,医院B就变成了更好的选择。为何会出现这种情况?

这是因为数据中存在潜在变量(比如病情严重程度不同的病人占比),按照潜在变量分组后的数据是不均匀的。在上面的例子中,医院A和医院B对于不同分组病人的救治成功率差别很大。对于重症病人,存活率只有30%~50%,而对于非重症的病人,存活率超过了95%。

同时,两种病人去医院A和医院B就医的数据分布正好相反,大多数重症病人都去了医院B,大部分的非重症病人去了医院A就诊。这就导致医院B的总体救治率数据反而被拉低了,而医院A的统计数据反而更占优势。

在分组比较中占据优势的一方,在综合评估中却成为失势的一方,该现象被称为辛普森悖论。辛普森悖论最初是英国数学家辛普森(Edward Huge Simpson)于1951年发现并提出的。此悖论如同魔咒般,已困扰统计学家60多年,时至今日也没有得到彻底解决。它的出现揭示出一个令人震惊的事实——同一组数据的整体趋势和分组趋势有可能完全不同。

若使用数学语言,辛普森悖论可以表示为如下的关系式:

时,我们不能得出的结论。反过来也一样,有兴趣的读者可以自行证明。

不少统计学家认为,由于辛普森悖论的存在,因此仅仅通过有限个统计数字,无法直接推导和还原事实真相。这是统计数据的致命缺陷。因为数据可以按照各种形式分类和比较,潜在变量无穷无尽,理论上总是可以用某个潜在变量得到某种结论。

对于那些不怀好意的人,他们很容易对数据进行拆分或归总,得到一个对自己有利的统计数据,从而误导甚至操纵别人。所以,为了避免辛普森悖论,我们应该仔细分析各种影响因素,不要笼统概括,更不能浅尝辄止地看问题。

关于作者:徐晟,某商业银行IT技术主管,毕业于上海交通大学,从事IT技术领域工作十余年,对科技发展、人工智能有自己独到的见解,专注于智能运维(AIOps)、数据可视化、容量管理等方面工作。

本文摘编自《大话机器智能:一书看透AI的底层运行逻辑》,经出版方授权发布。(ISBN:9787111696193)

《大话机器智能:一书看透AI的底层运行逻辑》

点击上图了解及购买

转载请联系微信:DoctorData

推荐语:AI是什么?机器如何拥有“智能”?“智能”如何起作用?本书以通俗易懂的方式,勾勒人工智能的全貌,展现AI的底层运行逻辑,即AI是如何工作的。

划重点

终于有人把辛普森悖论讲明白了相关推荐

  1. 终于有人把智能语音处理讲明白了

    导读:本文将介绍智能语音处理的基本概念.基本框架和基本模型. 作者:张雄伟 孙蒙 杨吉斌 等 来源:大数据DT(ID:hzdashuju) 机器学习的快速发展,为智能语音处理奠定了坚实的理论和技术基础 ...

  2. 鸿蒙osvalue mysql_终于有人把鸿蒙OS讲明白了,大佬讲解!快收藏

    来自 | GitHub科技 本文面向的是开发人员,主要想通过科普让大家了解一下鸿蒙开发.接下来,我想给大家科普一下这个这么火的鸿蒙系统. 到底什么是鸿蒙 OS 在官网上看到鸿蒙 OS 的简介是,分布式 ...

  3. 终于有人把区块链讲明白了

    导读:本文介绍区块链技术,包括区块链的概念.原理.特点和通用应用这4个部分. 大年初一,区块链及金融智能知识分享给你,祝你牛年发大财! 作者:王健宗 何安珣 李泽远 来源:大数据DT(ID:hzdas ...

  4. 终于有人把标签设计讲明白了

    导读:标签是根据业务场景的需求,通过对目标对象(含静态.动态特性)运用抽象.归纳.推理等算法得到的高度精练的特征标识,用于差异化管理与决策. 作者:华为公司数据管理部 来源:大数据DT(ID:hzda ...

  5. 终于有人把5G+人工智能讲明白了

    导读:本文介绍5G技术,主要包括 5G的概念.原理.特点和通用应用4个部分. 作者:王健宗 何安珣 李泽远 来源:大数据DT(ID:hzdashuju) 01 5G的概念 5G的全称是第五代移动通信技 ...

  6. 终于有人把量化投资讲明白了

    导读:股市起起伏伏,"基金"成为了热搜的常驻嘉宾,你上车了吗?翻车了吗?今天我们也蹭一下这个热度,聊聊量化投资. 作者:赵志强 刘志伟 来源:大数据DT(ID:hzdashuju) ...

  7. 终于有人把数据中台讲明白了

    导读:要建设数据中台,我们首先需要明确什么是数据中台,以及数据中台能为企业带来什么价值. 作者:陈新宇 罗家鹰 江威 邓通 等 来源:大数据DT(ID:hzdashuju) 01 数据中台定义 数据中 ...

  8. 终于有人把幸存者偏差讲明白了

    导读:本文带你了解数据收集的偏差. 作者:徐晟 来源:大数据DT(ID:hzdashuju) 数据收集是一项重要的工作,需要投入大量精力和时间,这是因为数据质量直接关乎分析结论的成败.然而,错误的数据 ...

  9. 终于有人把“嵌入式人工智能”讲明白了

    导读:嵌入式人工智能是个很有意思的概念.之前隔一段就要听到要工作或者要考研的同学问嵌入式和人工智能哪个有前途?果然成年人还是全都要更有前途,于是有了嵌入式人工智能.这篇就简单聊下嵌入式人工智能. 作者 ...

最新文章

  1. 监督学习应用与梯度下降
  2. 基于httpd建立私有CA实现https加密连接
  3. 多CPU,多核,多进程,多线程以及进程和线程的简单理解以及区别
  4. docker 查询或获取私有仓库(registry)中的镜像
  5. 论文学习15-Table Filling Multi-Task Recurrent Neural Network(联合实体关系抽取模型)
  6. 【包邮送书活动】20210924期-开奖通知
  7. nvidia TX2 CUDA yolov5环境搭建
  8. IConfiguration的命令行解析
  9. Flex Gumbo中如何自定义HSlider数据Tip样式的例子
  10. ueditor关闭元素
  11. “网友”叫你先上STM32,51是小朋友玩的,所以你就不学51了
  12. 大学生计算机网络游戏策划书,【大学校园活动策划方案】_大学生校园活动策划方案参考模板...
  13. jQuery动画的实现
  14. 离散型特征的处理方法
  15. 在线图片尺寸修改 生成图标
  16. Ubuntu上无法登录网页版本微信的解决方案
  17. Android仿qq邮箱账号邮件账号输入框交互
  18. Sailfish应用开发入门(一)Windows 安装Sailfish,创建第一个Sailfish APP
  19. Cas实现子系统登录互踢
  20. 网络钓鱼技术解析与安全防护措施

热门文章

  1. 《HelloGitHub》第 88 期
  2. android view.gone 动画,Android 模仿iPhone列表数据View刷新动画详解
  3. Halcon慢慢来(浅学Halcon)
  4. C习题:华氏度转摄氏度
  5. SpringBoot集成极验
  6. location.search是什么意思?怎么用?
  7. JavaWEB三:Javascript
  8. Google最强模型BERT出炉,NLP还有哪些值得期待的发展?
  9. 国家高新技术企业优惠政策重点及国家高新申报条件介绍,补贴20-50万
  10. Linux中最低调、最易让人忽视的tmp目录,原来用处那么大!