箱线图也称箱须图、箱形图、盒图,用于反映一组或多组连续型定量数据分布的中心位置和散布范围。箱形图包含数学统计量,不仅能够分析不同类别数据各层次水平差异,还能揭示数据间离散程度、异常值、分布差异等等。

小小箱子,大大信息量

箱线图(Box plot)也称箱须图(Box-whisker Plot)、箱线图、盒图,可以用来反映一组或多组连续型定量数据分布的中心位置和散布范围,因形状如箱子而得名。1977年,美国著名数学家John W. Tukey首先在他的著作《Exploratory Data Analysis》中介绍了箱形图。

图片来源:CHAPTER 1. EXPLORATORY DATA ANALYSIS

注:

连续型数据:在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的。例如,生产零件的规格尺寸,人体测量的身高、体重等,其数值只能用测量或计量的方法取得。可视化这类数据的图表主要有箱形图和直方图。

离散型数据:数值只能用自然数或整数单位计算的则为离散变量。例如,企业个数,职工人数,设备台数等,只能按计量单位数计数,数值一般用计数方法取得。大多数图表可视化的都是这类数据,比如柱状图、折线图等。

在箱线图中,箱子的中间有一条线,代表了数据的中位数。箱子的上下底,分别是数据的上四分位数(Q3)和下四分位数(Q1),这意味着箱体包含了50%的数据。因此,箱子的高度在一定程度上反映了数据的波动程度。上下边缘则代表了该组数据的最大值和最小值。有时候箱子外部会有一些点,可以理解为数据中的“异常值”。

由于箱线图不像柱状图、折线图那样简单常见,许多人都对它敬而远之。但只要我们搞清楚了以下几个统计学的基本概念,箱线图也可以变得“平易近人”。

01

四分位数

一组数据按照从小到大顺序排列后,把该组数据四等分的数,称为四分位数。第一四分位数 (Q1)、第二四分位数 (Q2,也叫“中位数”)和第三四分位数 (Q3)分别等于该样本中所有数值由小到大排列后第25%、第50%和第75%的数字。第三四分位数与第一四分位数的差距又称四分位距(interquartile range, IQR)。

02

偏态

与正态分布相对,指的是非对称分布的偏斜状态。在统计学上,众数和平均数之差可作为分配偏态的指标之一:如平均数大于众数,称为正偏态(或右偏态);相反,则称为负偏态(或左偏态)。

魔法箱子,会用才是王道

箱线图包含的元素虽然有点复杂,但也正因为如此,它拥有许多独特的功能:

01

直观明了地识别数据批中的异常值

箱形图可以用来观察数据整体的分布情况,利用中位数,25/%分位数,75/%分位数,上边界,下边界等统计量来来描述数据的整体分布情况。通过计算这些统计量,生成一个箱体图,箱体包含了大部分的正常数据,而在箱体上边界和下边界之外的,就是异常数据。

02

判断数据的偏态和尾重

对于标准正态分布的大样本,中位数位于上下四分位数的中央,箱形图的方盒关于中位线对称。中位数越偏离上下四分位数的中心位置,分布偏态性越强。异常值集中在较大值一侧,则分布呈现右偏态;异常值集中在较小值一侧,则分布呈现左偏态。

03

比较多批数据的形状

箱子的上下限,分别是数据的上四分位数和下四分位数。这意味着箱子包含了50%的数据。因此,箱子的宽度在一定程度上反映了数据的波动程度。箱体越扁说明数据越集中,端线(也就是“须”)越短也说明数据集中。

凭借着这些“独门绝技”,箱线图在使用场景上也很不一般,最常见的是用于质量管理、人事测评、探索性数据分析等统计分析活动。

案例1:职员薪酬分布

下图是不同地区数据分析师的薪酬统计情况。

图中的红线显然是各个城市中游水平的数据分析师能够获得的薪资标准,上边的蓝线区间为中上游,下边的蓝线区间为中下游,以此类推。简而言之,样本人群被四等分了。

上海、北京、深圳的数据分析师,薪资范围接近,但是中上游水平的人,北京地区能获得更高的薪资,因为中位数(Q2)的位置更高。西安、长沙、天津则不利于数据分析师的发展。杭州的水平接近北上深,但是薪资上限受到一定限制。

案例2:学生成绩分布

分析不同学年、不同科目的学生成绩也是箱线图的常见应用场景。下图中我们可以看到学生的英语成绩相对其它科目普遍较好,而数学则大部分都出于80分以下。

有时候我们会发现箱形图的某一部分仿佛被隐藏了,比如下图的第一个箱子。

除此之外还有一些极端情况,箱子被压得很扁,甚至只剩下一条线,同时还存在着很多异常值。这些情况的出现,有两个常见的原因。第一,样本数据中,存在特别大或者特别小的异常值,这种离群的表现,导致箱子整体被压缩,反而凸显出来这些异常;第二,样本数据特别少,因此箱体受单个数据的影响被放大了。

案例3:运动员水平分析

下面是一个箱线图演变过来的案例。从图中我们可以看到,在速度、敏捷、爆发、力量和身体指标五个方面近十年NBA选秀体侧数据的最值、正常水平(盒身)和中值(中位数),其中黄色标注的是周琦的个人数据。

综合来看,周琦的体测数据基本达到了NBA中锋的正常水准。在绕桩变向和禁区折返跑这两项敏捷度测试中,周琦表现不俗,有着超越常规NBA中锋的水准。中锋最重要的垂直纵跳一项,周琦也超出了联盟中锋的正常范围。身体素质上,周琦的身高臂展以及体脂水平都可以算得上顶尖。然而从体重这一项我们可以推测,周琦最大的问题在于他的力量。他必须尽快增重,增强自己的身体对抗能力以适应NBA的对抗强度。

案例4:科学研究分析

箱形图最初的诞生无疑是为科研工作量身打造的,在诸多论文中都可以看到箱形图的使用。下图显示了世界各地地表水中29种不同个人护理产品的浓度分布情况。针对所测量的个人护理产品,中位数浓度通常在0.01和0.1 μg / L之间。

图片来源:著名科学传播网站AtlasfScience

箱子虽好,别傻傻分不清楚

1. 误差线

一些柱状图中作者会添加误差线来给数值增加误差范围,看起来和箱线图有点相似。

2. K线图

K 线图,原名蜡烛图,又称阴阳图、棒线、红黑线或蜡烛线,常用于展示股票交易数据。虽然和箱形图长得有点像,但二者几乎是完全不同的图表。具体含义如下:

值得注意的是,箱形图更多用于多组数据的比较,相对直方图不仅节省了空间,还可以展示出许多直方图不能展示的信息。单组数据则更适合采用直方图,使可视化效果更加直观。

更多镝数使用问题请参看以下文章,如果仍有无法解决的问题,请发送邮件至public@dydata.io或者直接在后台留言。

参考来源

https://atlasofscience.org/active-ingredients-in-personal-care-products-detected-throughout-the-environment/

https://www.bloomberg.com/news/articles/2014-07-14/whites-account-for-the-entire-jump-in-heroin-deaths

https://antv.alipay.com/zh-cn/vis/chart/k-chart.html

https://mp.weixin.qq.com/s/watt4veiF3NVw2cBpF3f8w

https://pdfs.semanticscholar.org/2f40/fd06bc9fd00a27437e14ed171e96e4fd9326.pdf

http://edu.dataguru.cn/forum.php?mod=viewthread&tid=270177

https://mp.weixin.qq.com/s/zmE299d5Qhb6_gAWm_8YKA

转自http://www.sohu.com/a/218322591_416207

5分钟教你轻松掌握箱线图相关推荐

  1. 不会数学统计没关系——5分钟教你轻松掌握箱线图 | 图表家族#24

    转载:https://www.sohu.com/a/218322591_416207 箱线图也称箱须图.箱形图.盒图,用于反映一组或多组连续型定量数据分布的中心位置和散布范围.箱形图包含数学统计量,不 ...

  2. 在线作图|2分钟绘制一张箱线图

    箱线图(Box plot) 箱线图(Box-plot)因形状形如箱子而得名,是一种用作显示一组数据(如连续变量)分散情况资料的统计图.箱线图主要用于反映数据分布的特征,揭示数据间离散程度.异常值.分布 ...

  3. openpyxl 绘制饼形图_好享学丨快速上手Pythonmatplotlib 箱线图绘制,学术人必备

    好享学是高下制图推出的关于数据可视化经验分享栏目,我们将定期与您分享各界优秀人士的制图经验,一同学习. 01. 引言 箱线图(Boxplot)  是一种用作显示一组数据分散情况资料的统计图表,本期推文 ...

  4. 211.Alpha多样性箱线图(样章,11图2视频)

    <微生物组数据分析与可视化实战>专著 众筹编写<微生物组数据分析与可视化实战>--成为宏基因组学百科全书的创始人(目录) 编者序:初衷.计划.要求.优势.目标和展望 本文为样章 ...

  5. 宏基因组扩增子3统计绘图:中文首发,最详系,零基础(箱线图、散点图、热图、曼哈顿图、火山图、韦恩图、三元图、网络图)

    本网内容首发"宏基因组"公众号,更佳阅读体验.更多相关文章,欢迎点我跳转至公众号阅读 注:文为蓝色字均为文章链接,可点击直达 写在前面 优秀的作品都有三部分曲,如骇客帝国.教父.指 ...

  6. 扩增子统计绘图1箱线图:Alpha多样性

    本网对Markdown排版支持较差,对格式不满意的用户请跳转至 或"宏基因组"公众号阅读: 写在前面 优秀的作品都有三部分曲,如骇客帝国.教父.指环王等. 扩增子系列课程也分为三部 ...

  7. scatter函数_散点图、箱线图、核密度函数……数据分析必备的9种可视化图表

    全文共2286字,预计学习时长9分钟 图源:dayliscrawl 作为数据分析对外输出的关键环节,可视化技术可是数据科学家的必备技能之一.各种各样的图标花样繁多,可别被这些炫酷的"造型&q ...

  8. 箱线图怎么判断异常值_极简统计学---箱线图[2]

    全文大概1400字,阅读全文大概需要4.5分钟. 上一篇讲了箱线图基本组成,其中涉及到: 5大要数: 最大值,最小值,第一四分位数(Q1),第二四分位数(中位数Median),第三四分位数(Q3) , ...

  9. 箱线图的几种画法-Python

    箱线图的几种画法-Python 欢迎关注笔者的微信公众号 箱线图是一种强大的数据可视化工具,用于了解数据的分布.它将数据分成四分位数,并根据从这些四分位数得出的五个数字对其进行汇总: 中位数:数据的中 ...

最新文章

  1. cap3拼接sanger序列:在线+本地分析方法实战
  2. 《数据库原理与应用》(第三版) 第 3 章 关系数据库 习题参考答案
  3. 探究call 和 apply 的原理
  4. 【今日CS 视觉论文速览】Thu, 14 Feb 2019
  5. C++ STL标准模板库(queue)
  6. Linux环境下源码编译方式安装MySQL5.1(1)
  7. python接口自动化(三十五)-封装与调用--流程类接口关联(详解)
  8. MS SQL SERVER2005更新触发器
  9. FileUpload类中FileUpload1.FileName和FileUpload1.PostedFile.FileName的区别
  10. 深度学习教程(5) | 深度学习的实用层面(吴恩达·完整版)
  11. 计算机里的及格率和有优秀率怎么算,excel表格计算优秀及格率的教程
  12. MySQL更新时间的时候生成随机时间
  13. 《杜拉拉升职记》——值得一读的一本好书
  14. linux系统上安装python工具的步骤
  15. Centos下使用C++操作Redis——hiredis
  16. Freeman链码(弗雷曼链码)--matlab实现
  17. 【基础】秦九昭算法实现的多项式快速计算
  18. 清华大学公开课线性代数2——第8讲:图和网络
  19. Input搜索框与搜索图标对齐解决方法
  20. OpenCV基于Python霍夫圆检测—标准霍夫圆检测

热门文章

  1. 目标检测YOLOv3论文详解
  2. 开单大师(开源可定制的房产管理系统) v3.6.4 学习版
  3. 计算机毕业设计Java无人值守台球厅智能管理监控系统(源码+系统+mysql数据库+Lw文档)
  4. 多波束前视声呐的矩形图转扇形图
  5. ULTRA96V2部署神经网络
  6. 探秘中联重科全球最大塔机“宝藏”智能工厂
  7. 使用ebpf 监控mysqld 内核
  8. 2022-2028年中国健身休闲产业深度调研及投资前景预测报告
  9. TiDB、OceanBase都在谈的HTAP,为何如此燚?
  10. 基于JAVA游戏资讯网站计算机毕业设计源码+系统+数据库+lw文档+部署