数据离散程度的指标——标准差
标准差(Standard Deviation)
标准差,在概率统计中最常使用作为统计分布程度(statisticaldispersion)上的测量。反应组内个体间的离散程度。
标准差的计算(Calculation of standard deviation)
标准差的计算公式为:
σ=1N∑i=1N(xi−μ)2\sigma=\sqrt{\frac{1}{N} \sum_{i=1}^{N}\left(x_{i}-\mu\right)^{2}} σ=N1i=1∑N(xi−μ)2
举个例子:农场种植的某种水稻,连续6年的年平均产量如下(单位:500g):
品种 | 第一年 | 第二年 | 第三年 | 第四年 | 第五年 | 第六年 |
---|---|---|---|---|---|---|
产量 | 900 | 920 | 900 | 850 | 910 | 920 |
第一步:计算均值
用希腊字母μ表示水稻产量的均值
μ=x1+x2+x3+x4+x5+x66\mu=\frac{x_{1}+x_{2}+x_{3}+x_{4}+x_{5}+x_{6}}{6}μ=6x1+x2+x3+x4+x5+x6
第二步:计算每年产量与均值的差,并将结果平方
(x1−μ1)2\left(x_{1}-\mu_{1}\right)^{2}(x1−μ1)2
(x2−μ)2\left(x_{2}-\mu\right)^{2}(x2−μ)2
(x3−μ1)2\left(x_{3}-\mu_{1}\right)^{2}(x3−μ1)2
(x4−μ1)2\left(x_{4}-\mu_{1}\right)^{2}(x4−μ1)2
(x5−μ1)2\left(x_{5}-\mu_{1}\right)^{2}(x5−μ1)2
(x6−μ1)2\left(x_{6}-\mu_{1}\right)^{2}(x6−μ1)2
第三步:计算将差值平方后的均值
1N[(x1−μ)2+(x2−μ)2+(x3−μ)2+(x4−μ)2+(x5−μ)2+(x6−μ)2]\frac{1}{N}\left[\left(x_{1}-\mu\right)^{2}+\left(x_{2}-\mu\right)^{2}+\left(x_{3}-\mu\right)^{2}+\left(x_{4}-\mu\right)^{2}+\left(x_{5}-\mu\right)^{2}+\left(x_{6}-\mu\right)^{2}\right]N1[(x1−μ)2+(x2−μ)2+(x3−μ)2+(x4−μ)2+(x5−μ)2+(x6−μ)2]
第四步:将结果开平方
1N[(x1−μ)2+(x2−μ)2+(x3−μ)2+(x4−μ)2+(x5−μ)2+(x6−μ)2]\sqrt{\frac{1}{N}\left[\left(x_{1}-\mu\right)^{2}+\left(x_{2}-\mu\right)^{2}+\left(x_{3}-\mu\right)^{2}+\left(x_{4}-\mu\right)^{2}+\left(x_{5}-\mu\right)^{2}+\left(x_{6}-\mu\right)^{2}\right]}N1[(x1−μ)2+(x2−μ)2+(x3−μ)2+(x4−μ)2+(x5−μ)2+(x6−μ)2]
DONE!
且慢…还有
样本标准差
有时候我们的数据只是庞大的数据中心的一个样本
这种情况下仍可以计算标准差。
但我们用样本数据来对整个数据的情况进行估算,对样本数据的标准差计算公式做一些调整:
s=1N−1∑i=1N(xi−xˉ)2s=\sqrt{\frac{1}{N-1} \sum_{i=1}^{N}\left(x_{i}-\bar{x}\right)^{2}} s=N−11i=1∑N(xi−xˉ)2
最重要的变化是将最上面的公式中的N换成了N-1,N-1的使用被称为“贝塞尔校正”。
Why Take a Sample?
为什么要抽样计算?
Mostly because it is easier and cheaper.
主要是因为抽样计算的方式比较简单,成本更低一些。
但是当我们做采样统计的时候,我们就会损失一些数据的精确性。
数据离散程度的指标——标准差相关推荐
- 数据离散程度的衡量指标
有些时候数据的离散程度能够让我们数据分析得出一些其他信息,理想情况下数据越集中那么效果越好.那么有没有指标来衡量?答案是有得,今天主要学习一下数据离散程度的衡量指标. 1.极差 极差就是对一组 ...
- 数据挖掘(9-22):数据离散程度+数据清理+三大相关系数+数据库索引(数据库面试常问)+P值含义及理解
1.衡量数据离散程度的统计量: 数据的离散程度即衡量一组数据的分散程度如何,其衡量的标准和方式有很多,而具体选择哪一种方式则需要依据实际的数据要求进行抉择. 首先针对不同的衡量方式的应用场景大体归纳如 ...
- 《人人都会数据分析》笔记:数据离散程度描述
离散程度描述:可以用来说明事物在发展过程中的均衡性.节奏型和稳定性的问题. 离散程度指标:全距.平均差.方差.标准差.离散系数 全距:数据中最大值与最小值的差值.R=Xmax-Xmin 不足:是一个比 ...
- 变异系数(测算数据离散程度相对指标)
变异系数/差异系数(coefficient of variation): 是一种相对差异量数(不带测量单位),因而适用于测量单位不同或测量单位相同但集中量数相差较大的数据变异情况的比较 M:平均数( ...
- 机器学习与scikit-learn-13]:算法 - 分类的本质与样本分布的离散程度的指标:纯度、信息熵、 基尼指数.
作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客 本文网址: 目录 第1章 分类问题的本质 1.1 多特征样本的本质 1.2 分类的本质 第2章 纯度(pu ...
- 【统计学01】概括性描述-集中趋势,离散程度,分布形状度量
0 集中趋势度量 01 众数 02 中位数 03 平均数 普通加权:xˉ=∑i=1nxin\bar x=\frac {\sum_{i=1}^n x_i}{n}xˉ=n∑i=1nxi 分组加权:x ...
- python数据分析及可视化(二)离散程度、标准化值、分布形态、描述性统计图表
描述性统计 平均指标 调和平均数 算术平均数的变种,本质跟算术平均数是一致的. 定义:变量值倒数的算术平均值的倒数.表示的符号:HHH 调和平均数(根据未分组数据计算的):H=n1x1+1x2+... ...
- 数据的离散程度度量:极差、四分位差、平均差、方差、标准差、异众比率、离散系数
数据的离散程度即衡量一组数据的分散程度如何,其衡量的标准和方式有很多,而具体选择哪一种方式则需要依据实际的数据要求进行抉择. 首先针对不同的衡量方式的应用场景大体归纳如下: 极差:极差为数据样本中的最 ...
- 数据的离散程度:极差、方差和标准差
数据的离散程度 如下两组数据: A:1,2,5,8,9 B:3,4,5,6,7 两组数据的均值都是 5,但是 B 组的数据更接近 5. 很多时候有描述集中趋势的统计量是不够的,还要有描述数据的离散程度 ...
最新文章
- Build-dep linux 知乎,删除通过apt-get build-dep安装的软件包
- 针对CDP协议攻击分析及安全防护
- 77. 组合016(回溯法)
- 宁浩:扛过了,痛便是痛快!
- 响应HTTP服务的shell脚本
- Hibernate 一对一外键单向关联
- 手机怎么往服务器传文件,windows怎么用指令给手机传文件
- 符合c语言语法规定的是,若变量已正确定义并赋值,符合C语言语法的表达式是 A。a=a+7; B.a=7+b+c,a++...
- 推荐几款优秀的开源编程字体
- TcaplusDB X 光与夜之恋|你的恋爱我来守护
- (CVPR-2022)具有密集 3D 表示和基准的野外步态识别
- 20年研发管理经验谈(十七)(终结)
- 青龙脚本--联通领话费流量等
- 使用Jimi处理图像
- 如何把小程序游戏运行到自有app中?
- 汽车纵向动力学模型简介(汽车动力学建模入门知识)
- java 四舍六入五成双_显示格式的四舍六入五成双
- 知乎上的100条简短深刻的回答
- android上层如何默认开启ZSD
- M1 MacBook 苹果电脑安装brew
热门文章
- 程序员,如何打破职业瓶颈期?
- python_MODIS HDF数据转为tif并拼接图像
- 毫米波屏蔽测试方案助力5G毫米波通信
- FPGA CRC-16/XMODEM x16+x12+x5+1
- 新浪微博技术架构分析和设计
- html在侧边栏,js+css实现全屏侧边栏
- MySQL数据库学习(二) MySQL数据库课后练习(1) DDL与DML练习
- 阅读完synchronized和ReentrantLock的源码后,我竟发现其完全相似
- 32. PXE+Kickstart批量装机
- java vb 混编_vb与java的混合!(网络编程)