未来几天我会推出几篇关于统计分析的基础性文章,也当做是一次对统计知识的温习呗~

part 1:数据统计

(一)统计学

统计学是在数据分析的基础上,自17世纪中叶产生并逐步发展起来的一门学科。它是研究如何测定、收集、整理、归纳和分析反映数据,以便给出正确消息的科学。统计广泛地应用在各门学科,从自然科学、社会科学到人文学科,甚至被用来工商业及政府的情报决策之上,目前比较热门的应用:经济学,医学,心理学等。随着大数据(Big Data)时代来临,统计的面貌也逐渐改变,与信息、计算等领域密切结合,是数据科学(Data Science)中的重要主轴之一。

统计学可以分为:描述统计学和推断统计学

1)描述统计学:使用特定的数字或图表来体现数据的集中程度离散程度。例:每次考试算的平均分,最高分,各个分段的人数分布等,也是属于描述统计学的范围。

2)推断统计学:根据样本数据推断总体数据特征。例:产品质量检查,一般采用抽检,根据所抽样本的质量合格率作为总体的质量合格率的一个估计。

(二)集中趋势

如果只容许使用一个数字去代表这组数据,选择数据的中心,即反映数据集中趋势的统计量。

例如:对于1 2 3 4 5这组数据,那么数字3,反映了数据的中心。

(三)均值

如果只容许使用一个数字去代表这组数据,选择数据的中心,即反映数据集中趋势的统计量。

均值公式:

如:某次数学考试中,小组A与小组B的成员的成绩分别如下:

A:70,85,62,98,92     B:82,87,95,80,83

求两小组的平均分:

组A:(70+85+62+98+92)/5=81.4

组B:(82+87+95+80+83)/5=85.4

比较结果:组B的平均分比组A高,组B的总体成绩比组A高。

(四)中位数

顾名思义,中位数就是将数据按大小顺序(从大到小或是从小到大都可以)排列后处于中间位置的数。

例:58,32,46,92,73,88,23

1、先排序:23,32,46,58,73,88,92

2、找出处于中间位置的数:23,32,46,58,73,88,92。三个数字比58小,三个数字比58大。

例:58,32,46,92,73,88,23,63

1、先排序:23,32,46,58,63,73,88,92

2、找出处于中间位置的数:23,32,46,58,63,73,88,92

3、若处于中间位置的数据有两个(也就是数据的总个数为偶数时),中位数为中间两个数的算术平均数:(58+63)/2=60.5——原数据中,四个数字比60.5小,四个数字比60.5大。

(五)众数

数据中出现次数最多的数(所占比例最大的数),描述一般水平。一组数据中,可能会存在多个众数,也可能不存在众数,如:

1 2 2 3 3中的众数是2和3

1 2 3 4 5中没有众数

众数不仅适用于数值型数据,对于非数值型数据也同样适用,如(灯笼,灯笼,猫,花朵,花朵,花朵,大象),众数——花朵

(六)均值、中位数、众数比较

优点

缺点

均值

充分利用所有数据,适用性强。

容易受到极端值影响。

中位数

不受极端值影响。

缺乏敏感性。

众数

当数据具有明显的集中趋势时,代表性好;不受极端值影响。

缺乏唯一性:可能有一个,可能有两个,可能一个都没有。

a图【对称数据】:数据出现对称,使用均值、中位数、众数都可以。

b图【正倾斜数据】:数据值向左偏,则众数就是最高峰的地方。众数会表现出集中的趋势。

c图【负倾斜数据】:数据值向右偏,则众数就是最高峰的地方。众数会表现出集中的趋势。

(七)方差&标准差

在统计学经常使用方差来描述数据的离散程度,方差越大数据离中心越远,数据越离散。

其中Xi表示数据集中第i个数据的值,u表示数据集的均值。

A组:1 2 5 8 9

B组:1 4 5 6 9

为了保持单位的一致性,需要引入一个新的统计量————标准差,能有效地避免了因单位平方而引起的度量问题。和方差一样,标准差的值越大,表示数据越分散。

part 2:数据图表

在对统计信息在可视化时的基本属性进行分析与研究后,可直观展示统计信息属性(时间性、数量性等),对知识挖掘和信息直观生动感受起关键作用的图形结构,是一种很好的将对象属性数据直观、形象地“可视化”的手段。

(一)直方图

1、频数分布表:

数据组:53 53 61 61 63 65 67 67 69 69 69 70 7071 74 75 75 76 77 78 79 80 81 81 81 81 82 84 85 86 87 87 87 88 89 90 91 91 9495

整理数据,将数据按照成绩分为几组。成绩按照一般按照50~60、60~70、70~80、80~90、90~100这几个分段来划分(一般都分为5~10组)

频数分布表:

可以看到在80~90这个分段的人数最多

2、频数直方图:

根据频数分布表,可以画出频数直方图。频数作为纵坐标,成绩作为横坐标。通过直方图可以对成绩的分布有了一个直观的印象。

除了频数直方图,还有另一种直方图——频率直方图。与频数直方图相比,频率直方图的纵坐标有所改变,使用了频率/组距。频率=频数/总数;组距就是分组的极差,这里组距是10(可以是100-90=10,也可以使90-80=10等)

(二)箱线图

箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。

1、下四分位数:Q1,将所有数据按照从小到大的顺序排序排在第25%位置的数字。

2、上四分位数:Q3,将所有数据按照从小到大的顺序排序排在第75%位置的数字。

3、四分位距:IQR,等于Q3-Q1,衡量数据离散程度的一个统计量。

4、异常点:小于Q1-1.5IQR或大于Q3+1.5IQR的值。

5、上边缘:除异常点以外的数据中的最大值。

6、下边缘:除异常点以外的数据中的最小值。

(三)茎叶图

茎叶图可以在保留全部数据信息的情况下,直观地显示出数据的分布情况,茎叶图,左边是茎,右边是叶。若将茎叶图旋转90度,则可以得到一个类似于直方图的图。

(四)线图

以年份为横标,收入为纵坐标,反映变量随年份推进和收入的变化趋势。

展示全国人均收入涨势,整体呈现一个上升的趋势。

(五)柱形图

柱状图:一种以长方形的长度为变量的表达图形的统计报告图,由一系列高度不等的纵向条纹表示数据分布的情况,用来比较两个或以上的价值(不同时间或者不同条件),只有一个变量,通常利用于较小的数据集分析。

如下图表中既可以比较不同地区的售销的对比,也可以比相同产品在不同地销量。

(六)饼图

饼图(饼状图),根据各项所占百分比决定在饼图中的扇形面积。简单易懂,通俗明了,可以更加形象地看出各个项目所占的比例大小

#统计分析基础-数据统计与图表相关推荐

  1. 统计分析基础 (一) 数据统计与图表

    统计分析基础 (一)数据统计与图表 1 数据统计 1.1 统计学 统计学是在数据分析的基础上,自17世纪中叶产生并逐步发展起来的一门学科.它是研究如何测定.收集.整理.归纳和分析反映数据,以便给出正确 ...

  2. 138.(前端)数据统计显示图表——vue子组件的挂载与echarts基本效果实现

    1.如何挂载子组件 先在t_menu中添加好新组件的路由地址 在template下创建目录data,创建组件Data.vue 去index.js下的父级组件引入子组件的路由地址和名称 2.搭建子组件的 ...

  3. java统计分析_数据统计(java实现)

    最笨的方法 1. 创建对应的表 CREATE TABLE "NETPORTVIEW" ("GRP" CHAR(5), "VIEWDATE" ...

  4. R语言实战-统计分析基础-描述性统计4-psych-describe

    1 程辑包'psych'是用R版本3.5.3 来建造的 2 > describe(mtcars[vars]) 3 vars n mean sd median trimmed mad min ma ...

  5. finebi实现对环境基础数据可视化图表分析

    近年来,越来越多的生态问题展现在我们眼前,像日本往大海倾倒核废水,全球干旱,热带雨林大面积火灾,全球最高温,温度突变,极端天气,等都将生态问题展现在我们面前.当代生态环境问题,是人类不合理的活动引起的 ...

  6. 数据科学与python——Pandas统计分析基础(数据堆叠+数据清洗)

    Pandas统计分析基础数据堆叠+数据清洗 一.合并数据:获取完整的数据集. 1.读取数据 2.将两个csv文件按照mete.csv文件的日期对齐 3.纵向合并数据data1与data2 4.使用dr ...

  7. 4. 数据统计分析基础知识

    数据统计分析基础知识 数据统计分析基础知识 什么是数据分析 数据分析六步曲 明确分析目的和内容 数据收集 数据处理 数据分析 数据展现 报告撰写 Reference 什么是数据分析 专业 有针对性的收 ...

  8. javaweb课程设计-基于SSM框架的疫情数据统计分析系统源码+数据库,可以进行疫情数据录入、疫情数据查询、图表展示

    疫情数据统计分析系统 完整代码下载地址:基于SSM框架的疫情数据统计分析系统源码+数据库 介绍 疫情数据统计分析系统是一个基于SSM框架的网页端系统,项目中实现的功能如下:用户访问网站可以浏览全国疫情 ...

  9. 0基础学习VR全景平台篇 第55篇:专业版功能-数据统计

    使用蛙色VR平台数据统计功能,可以统计分析整个账号下[所有作品]的访问数据: 亦可分析单个作品中[每个场景]的访问数据. 账号数据统计功能位置 单作品数据统计功能位置 一.本功能将用在哪里? 数据统计 ...

最新文章

  1. SAP PM 初级系列24 - 发料到维修工单
  2. Linux 的启动流程--转
  3. 打开AzureRay园子的大门,欢迎大家串门哟~
  4. Greenplum 权限管理与客户端认证
  5. 最小生成树KrusKal算法(并查集)
  6. names文件和data文件_data.table让你的读取速度提升百倍
  7. 如何击败Python的问题
  8. linux驱动 自旋锁
  9. java的一些小知识总结
  10. matlab 12脉波变压器,12脉波整流电路MATLAB-Simulink仿真及谐波分析.pdf
  11. 读书随笔《36岁, 半熟人生》
  12. shadertoy学习记录(1)
  13. 经典SQL查询语句大全
  14. Kitkat中对class core, class main, class late_start的简单分析
  15. 修改系统默认的音频设备
  16. 倾城Q码 倾城梦网 掌上投洽会 掌上6 18首页
  17. C#导出pdf文件《一》
  18. 个人计算机全都是多媒体计算机系统组成,多媒体计算机系统组成
  19. 承德网站服务器,承德联通dns服务器地址
  20. app 链接不上服务器无响应,手机app链接不了服务器

热门文章

  1. TCP拥塞控制和流量控制区别含义深刻理解
  2. 用Pyinstaller打包.py文件
  3. 220409蓝桥杯C语言大学C组手算填空题T^T
  4. win10 解决 WMI Provider Host 占用CPU过高问题
  5. 蚂蜂窝完成C轮融资 打造O2O移动商业闭环
  6. 一位十年软件工程师告诉你什么是编程思想
  7. Android基础课程:原生视频播放器(播放网络资源)
  8. 韵断香残,青春泛舟无悔
  9. H5,C3新特性,你值得拥有
  10. css椭圆,椭圆边框