描述统计

1.描述数据水平的统计量

  1. 平均数(平均数反映了一组数的平均水平,平均数会受到极端值的影响),在计算时一般使用算术平均数:

算 术 平 均 数 x ˉ = ∑ i = 1 n x i n 算术平均数 \ \ \bar{x} = {\displaystyle\sum_{i=1}^nx_i \over n} 算术平均数  xˉ=ni=1∑n​xi​​

  1. 分位数:四分位数、中位数(中位数反映一组数据的中等水平,只与数据的位置有关,不受极端值影响)、百分位数

中 位 数 : M e = { x ( n + 1 ) 2 , n 为 奇 数 1 2 ( x n 2 + x n 2 + 1 ) , n 为 偶 数 ‘ 中位数: M_e=\begin{cases} x_{(n+1) \over 2}, & n为奇数 \\ {1 \over 2}(x_{n \over 2}+x_{{n \over 2}+1}), & n为偶数 \end{cases} ` 中位数:Me​={x2(n+1)​​,21​(x2n​​+x2n​+1​),​n为奇数n为偶数​‘

四 分 位 数 Q 25 % = n + 1 4 ; Q 75 % = 3 ( n + 1 ) 4 四分位数 \ \ \ \ \ \ \ \ Q_{25\%} = {n+1 \over 4} ;\ \ \ Q_{75\%}={3(n+1) \over 4} 四分位数        Q25%​=4n+1​;   Q75%​=43(n+1)​

  1. 众数(一组数据中出现频次最多的数)

2.描述数据差异的统计量

  1. 极差:一组数据的最大值与最小值之差(受极端值影响)。

R = M a x ( x ) − M i n ( x ) R = Max(x) - Min(x) R=Max(x)−Min(x)

  1. 四分位差(反映中间50%数据的离散程度,不受极端值影响)。

I Q R = Q 75 % − Q 25 % IQR = Q_{75\% }-Q_{25\%} IQR=Q75%​−Q25%​

  1. 方差和标准差:标准差反映数据离散程度的绝对值,其数值受原始数据大小的影响;另外,标准差与原始数据的计量单位相同,因此,在比较不同样本数据的离散程度时,使用变异系数是更好的选择。

样 本 方 差 s 2 = ∑ i = 1 n ( x i − x ˉ ) 2 n − 1 样本方差 \ \ s^2 = {\displaystyle\sum_{i=1}^n (x_i- \bar{x})^2 \over n-1} \\ 样本方差  s2=n−1i=1∑n​(xi​−xˉ)2​

  1. 变异系数(CV):变异系数又称离散系数,变异系数消除了计算数值和计量单位的影响,因此可以反映一组数据的相对离散程度(变异系数是相对值),主要用于比较不同样本数据的离散程度。

离 散 系 数 C V = s x ˉ 离散系数 \ \ CV = {s \over \bar{x}} 离散系数  CV=xˉs​

  1. 标准分数:标准化值,度量每个数值在该组数据中的相对位置

标 准 分 数 z i = x i − x ˉ s 标准分数 \ \ z_i = {x_i -\bar{x} \over s} 标准分数  zi​=sxi​−xˉ​

3.描述数据分布形状的统计量

  1. 偏度系数:偏度系数用于描述数据分布的对称性,偏度系数越接近0,则数据的分布月对称,偏度系数为正,则数据分布为右偏,为负,则数据分布为左偏

  2. 峰度系数:描述数据分布峰值的高低。

大数据之统计学基础(一) -- 描述统计相关推荐

  1. 大数据之统计学基础(一)

    1. 统计学 统计学可以分为:描述统计学与推断统计学 描述统计学:使用特定的数字或图表来体现数据的集中程度和离散程度.例:每次考试算的平均分,最高分,各个分段的人数分布等,也是属于描述统计学的范围. ...

  2. 大数据之统计学基础(二):随机变量及其概率分布

    随机变量及其概率分布 随机变量(r.v)是研究随机试验中的一串事件:比如掷一颗骰子,用X表示骰子的点数,由于X的取值我们无法确定,所以称X是一个随机变量,随机变量的取值随机会而定. 1.随机变量的类型 ...

  3. 大数据时代统计学面临的机遇与挑战

    (2016-10-15 银河统计) 大数据时代的到来, 使我回想起上个世纪80年代大学时期非常流行的一本书: <第三次浪潮>(The Third Wave) 美国著名未来学家阿尔温.托夫勒 ...

  4. Thinking in BigData(五)大数据之统计学与数据挖掘

    今天回来,在原来的文章中,添加了一些数据挖掘方面的概念. 上篇博客,我们从"大","价值"两点来揭示大数据主要源于哪些企业和在哪些企业应用更广泛.在最后,我么指 ...

  5. 大数据薪资一再飙升 学习大数据需要哪些基础?

    2018年6月19日,备受关注的个人所得税法修正案草案迎来第七次大修,个税起征点由每月3500元提高至每月5000元(每年6万元).对于大多数人来说这绝对是个好消息,但人们更愿意参加培训班实现高薪.近 ...

  6. python可以处理多大的数据_科多大数据之Python基础教程之Excel处理库openpyxl详解...

    原标题:科多大数据之Python基础教程之Excel处理库openpyxl详解 科多大数据小课堂来啦~Python基础教程之Excel处理库openpyxl详解 openpyxl是一个第三方库,可以处 ...

  7. 【2017年第4期】大数据平台的基础能力和性能测试

    姜春宇1,2,魏凯1,2 1.中国信息通信研究院移动互联网与大数据部,北京 100191 2. 数据中心联盟大数据发展促进委员会,北京 100045 摘要:目前整个大数据技术还处于以开源方式为主导.多 ...

  8. 大数据学习方法,学习大数据需要的基础和路线

    大数据基础学习 大数据基础入门 为什么要学习大数据 1.目的:要份很好工作(钱) 2.对比:Java开发和大数据开发 什么是大数据? 举例: 1.商品推荐:问题: (1)大量的订单如何存储? (2)大 ...

  9. 大数据第二阶段Python基础编程学习笔记(待完善)

    大数据第二阶段Python基础编程学习笔记(待完善) 第一章 Python基础语法 3.8 1-1Python概述 python基础部分: ●Python基础语法: 标识符,关键字,变量,判断循环.. ...

最新文章

  1. csdn的博客文化真好
  2. kafka0.9 java commit_0.9版本kafka优化及常见错误(转载)
  3. boost::python::detail::is_borrowed_ptr相关的测试程序
  4. fanuc roboguide_FANUC机器人虚拟仿真教程:Roboguide弧焊仿真工作站工装添加
  5. 取周一时间_周一到周五不好化妆?别着急,5款夏日通勤裸妆的教程来了!
  6. 【August】百度运维+测试面试
  7. centos linux服务器优化之系统服务优化
  8. uniapp 引入第三方包发起网络数据请求
  9. 防火墙之Iptables与Firewalld
  10. php实现微信一键登录,PHP如何实现微信的授权登录
  11. Photoshop生成320*320像素图片
  12. readability: 英文文本数据可读性库
  13. qq邮件中插入html,qq邮箱如何添加标签
  14. SLA服务可用性4个9是什么意思?怎么达到?
  15. Scratch编程 烧脑算法——换位密码
  16. 老子《道德经》里的投资之道
  17. sqlserver2008 R2数据库-不允许表修改保存,阻止保存要求重新创建表的更改
  18. linux是什么操作系统_Linux的优势
  19. sqlite数据库下载安装和初步操作和所遇到的问题near sqlite3:syntax error
  20. 从零开始离线安装k8s集群

热门文章

  1. 9.脚本语言知识总结
  2. NOI题库答案 2.2基本算法之递归和自调用函数
  3. 那天,妹子给我发来了一串乱码…
  4. 大数据Spark学习笔记—未更完
  5. 2021到2022跨年还有多少天?可用手机便签设置跨年倒数
  6. python爬虫教材推荐 豆瓣_Python爬虫入门教程:豆瓣Top电影爬取
  7. Java考试案例-列出101至200之间的质数
  8. js 判断数组中是否包含某个元素
  9. UltraEdit v18.0 破解版注册机
  10. Windows电脑如何滑动关机(Slide To Shut Down)