方差为什么用平方不用绝对值,为什么要对差值求平方而不是取标准偏差的绝对值?...
为什么要对差值求平方而不是取标准偏差的绝对值?
我们将x与平均值的差平方为平方,这是因为与自由度的平方根成正比的欧几里德距离(以人口度量,x的数量)是分散的最佳度量。
计算距离
0点到5点的距离是多少?
5−0=55−0=5,
|0−5|=5|0−5|=5和
52−−√=552=5
好的,这很简单,因为它是一个单一维度。
点0、0到点3、4的距离如何?
如果我们一次只能输入一维数据(例如在城市街区中),那么我们只需将数字相加即可。(有时称为曼哈顿距离)。
但是一下子进入二维呢?然后(通过我们在高中都学过的毕达哥拉斯定理),我们对每个维度的距离求平方,对平方求和,然后取平方根求出从原点到点的距离。
32+42−−−−−−√=25−−√=532+42=25=5
从0、0、0点到1、2、2的距离如何?
这只是
12+22+22−−−−−−−−−−√=9–√=312+22+22=9=3
因为前两个x的距离构成了计算最终x的总距离的支路。
x21+x22−−−−−−√2+x23−−−−−−−−−−−−−√=x21+x22+x23−−−−−−−−−−√x12+x222+x32=x12+x22+x32
对于超维空间中的正交测量,我们可以继续扩展对每个维度的距离进行平方的规则,将其推广到所谓的欧几里得距离,如下所示:
distance=∑i=1nx2i−−−−−√distance=∑i=1nxi2
因此正交平方和就是距离的平方:
distance2=∑i=1nx2idistance2=∑i=1nxi2
是什么使测量与另一个正交(或成直角)?条件是两次测量之间没有关系。我们希望这些度量是独立且独立分布的(iid)。
方差
现在回想一下总体方差的公式(从中我们可以得到标准差):
σ2=∑i=1n(xi−μ)2nσ2=∑i=1n(xi−μ)2n
如果我们已经通过减去平均值将数据居中于0,则可以得到:
σ2=∑i=1n(xi)2nσ2=∑i=1n(xi)2n
因此,我们看到方差仅是平方距离除以自由度数(变量可以自由变化的维度数)。这也是每次测量对的平均贡献。“均方差”也将是一个适当的术语。distance2distance2
标准偏差
然后我们有了标准偏差,它只是方差的平方根:
σ=∑i=1n(xi−μ)2n−−−−−−−−−−−⎷σ=∑i=1n(xi−μ)2n
等效地,距离,除以自由度的平方根:
σ=∑i=1n(xi)2−−−−−−−√n−−√σ=∑i=1n(xi)2n
平均绝对偏差
平均绝对偏差(MAD)是使用曼哈顿距离或与均值之差的绝对值之和得出的色散度量。
MAD=∑i=1n|xi−μ|nMAD=∑i=1n|xi−μ|n
同样,假设数据居中(减去均值),则用曼哈顿距离除以测量次数:
MAD=∑i=1n|xi|nMAD=∑i=1n|xi|n
讨论区
平均绝对偏差约为正态分布数据集标准偏差大小的0.8倍(实际上是2/π−−−√2/π)。
无论分布如何,平均绝对偏差都小于或等于标准偏差。MAD低估了相对于标准偏差的极值数据集的离散度。
平均绝对偏差对异常值的鲁棒性更高(即,异常值对统计的影响不如对标准差的影响大。
从几何学上讲,如果测量值彼此不正交(例如,id),例如,如果它们是正相关的,则平均绝对偏差将比标准偏差更好地描述统计量,标准偏差取决于欧几里得距离(尽管通常认为这很好) )。
该表以更简洁的方式反映了上述信息:
sizesize,∼Noutliersnoti.i.d.MAD≤σ.8×σrobustrobustσ≥MAD1.25×MADinfluencedokMADσsize≤σ≥MADsize,∼N.8×σ1.25×MADoutliersrobustinfluencednoti.i.d.robustok
评论:
您是否具有“平均绝对偏差约为正态分布数据集标准偏差大小的0.8倍”的参考?我正在运行的模拟表明这是不正确的。
这是标准正态分布中100万个样本的10个模拟:
>>>fromnumpy.randomimportstandard_normal>>>fromnumpyimportmean,absolute>>>for_inrange(10):...array=standard_normal(1_000_000)...print(numpy.std(array),mean(absolute(array-mean(array))))...0.99993032268079940.79806342692730351.0011264618080810.79858329777989810.99942472755338930.79801716498026130.99941421053354780.79723671363208481.00011882118177260.7980215643159371.0004426544812970.79818452369108421.00015375187282320.79755549937424031.00028383691919820.7981431082500630.99990601144553840.7978952841095231.00048710656801650.798726062813422
结论
在计算色散度量时,我们更喜欢平方差,因为我们可以利用欧几里得距离,从而为色散提供了更好的描述统计。当存在更多相对极值时,欧几里得距离占统计数据中的极值,而曼哈顿距离为每个度量值赋予相等的权重。
方差为什么用平方不用绝对值,为什么要对差值求平方而不是取标准偏差的绝对值?...相关推荐
- python计算平方面积_python中求平方
python学习(2)--变量与表达式 python学习(2)--变量与表达式 1.与java和c语言相通,python中也分为四种运算符: (1)算数运算符(如:+.-.*./); 学过java或者 ...
- 高斯函数半高宽FWHM、拐点差值绝对值一半以及标准差σ的关系
半高宽(Full-width at the half of the maximum, FWHM)是指回波波峰一半所对应的时间全宽,是时间概念,单位一般为ns等. FWHM=22ln2σFWHM =2\ ...
- [react] react中遍历时为什么不用索引作为唯一的key值?
[react] react中遍历时为什么不用索引作为唯一的key值? key值的目的在Diff DOM的时候根据render前后的唯一key值快速的对树进行比较,保证key值得唯一性,如在进行中间插入 ...
- 字母绝对值python怎么表示_【怎样求用字母表示的数的绝对值?】作业帮
用绝对值的代数定义求一个数的绝对值,必须先判断这个数是正数.零,还是负数,再由定义确定去掉绝对值符号"| |"后的结果是它本身,还是它的相反数及零,从而求得这个数的绝对值.当这个数 ...
- 实验2-3-7 求平方与倒数序列的部分和 (C语言)
实验2-3-7 求平方与倒数序列的部分和 (C语言) 本题要求对两个正整数m和n(m≤n)编写程序,计算序列和m2+1/m+(m+1)2+1/(m+1)+⋯+n2+1/n. 输入格式: 输入在一行中给 ...
- java:编写一个求平方的窗体
编译平台选择是eclipse. 打开eclipse,file->new->class,输入名称后,点finish. 总代码: import java.awt.*; import java. ...
- java怎么求平方怎么求指数?
1.直接将同一个数相乘: int a = 6; int b = a * a;//两个数相乘达到平方的效果,其他指数同理 2.使用Math的pow方法求平方 Math.pow(double a,doub ...
- matlab计算绝对值的导数,如何用matlab求带绝对值函数的导数? 你值得一看的技巧...
用matlab求函数的导数:如果一个函数表达式中有绝对值,那对该函数求导就需要注意啦!该函数可能在他的零点处导数不存在,所以我们不能用传统的方法求导,应该在零点处分别求左导数和右导数,如果左导数和右导 ...
- [算法][面试题]疯狂队列-排列使得序列两两间“差值的绝对值“之和最大
题目 给定一个数列A,数列中相邻两项的差值的绝对值定义为"疯狂值".任意排序这个数列,使得整个数列的"疯狂值"最大,输出这个最大值. 样例 输入 5 10 25 ...
- 数位 dp 相邻位数字差值的绝对值不能超过 2_XMZD-102 数字温度仪
XMZD-102 数字温度仪 单回路数显仪表是采用微处理器进行数字运算,可对各种非线性信号进行高精度的线性矫正的仪器. 概述 单回路数显仪表显示控制仪适用于各种温度.压力.液位.长度等的测量控制.采用 ...
最新文章
- 用python解“12-24小时制”题
- 《2019人工智能发展报告》出炉:清华大学-中国工程院知识智能联合研究中心、中国人工智能学会联名发布!...
- 查看linux系统的性能
- razor 怎样使用session变量_Nginx负载均衡解决session一致性问题
- VTK:几何对象之ParametricSuperToroid
- 华为上机试题:最高分是多少
- 一些鲜为人知的编程事实(省身)
- 文献引用的标准格式_外语论文文献引用格式—APA Style
- LeetCode 522. 最长特殊序列 II
- Altium Designer20原理图绘制
- application.yml改成bootstrap.yml不报错了(Failed to configure a DataSource: ‘url’ attribute)
- Leetcode每日一题:101.symmetric-tree(对称二叉树)
- 漫谈Clustering:高斯混合模型(GMM)
- SQL Server查询结果插入表
- SPSS Modeler 18.0 基本介绍
- 从u盘引导进入linux6,使用U盘启动安装U盘内linux6.1
- Processing学习 — Processing结合Kinect2实现人影互动
- 嘉立创EDA专业版--文件名称修改、原理图尺寸修改与文本放置
- 解决出行难题,共享巴士小程序开发
- 期货从入门到高深之量化交易1
热门文章
- 随笔记录使用DNK时遇到的几个问题
- 当天使爱上吸血鬼,上帝开始哭泣
- 树梅派应用27:通过USB蓝牙适配器连接BLE设备
- Contextual Transformer Networks for Visual Recognition
- 计算机编程语言排行榜—TIOBE世界编程语言排行榜(2021年10月份最新版)
- linux aufs,UnionFS有什么用?AUFS的一些特性
- 布法罗纽约州立大学计算机排名,2019年QS世界大学排名纽约州立大学布法罗分校排名第313...
- Bootstrap 学习笔记1 - CSS
- 巨蟒python全栈开发-第13天 内置函数 匿名函数lambda
- 物业平台借力OA系统,实现报修管理数字化