清理异常值(MAD:绝对中位差)
清理异常数据:
中位数绝对偏差(MAD):用来描述单变量样本在定量数据中可变的一种标准
在统计学中,绝对中位差是刻画一元数据样本变化的一个鲁棒度量。由公式可以看出,其求解还算简单,给定一个数据样本集,首先求其中位数,然后求原始数据减去中位数的绝对值从而形成一个新的数据样本,再求新的数据样本的中位数即为绝对中位差。比如说有一个数据样本集X={2 3 8 7 9 6 4},这时候数据的中位数是6,原始数据减去中位数求绝对值形成新的数据样本为{4 3 2 1 3 0 2},新的数据样本的中位数是2,所以原始数据样本集合的绝对中位差是2。
绝对中位差这个度量有什么用呢?
绝对中位差较标准差而言对“野”点(outlier)更加的鲁棒。在标准差的计算中,数据点到其均值的距离要求平方,因此对偏离较为严重的点偏离的影响得以加重,也就是说“野”点严重影响着标准差的求解,而少量的“野”点对绝对中位差的影响不大。
https://blog.csdn.net/lanchunhui/article/details/80381516 参考文章
import matplotlib.pyplot as plt
import numpy as np
from scipy.stats import norm
x=np.random.random(100)
number=50
x=np.r_[x,-60,80,40,100,-100]#在后面添上,相当于padans中mergeplt.figure()
plt.subplot(211)
plt.hist(x,number)
plt.xlabel('raw') #没消除异常的时候
# plt.show()def c_except(x,thresh=3.5):'''使用绝对中位差消除异常:return:'''if len(x)<=1:returnme=np.median(x)abs=np.absolute(x-me)abs_me=np.median(abs)score=norm.ppf(0.75)*abs/abs_mereturn score<thresh#异常消除后
x_late=x[c_except(x)]
plt.subplot(212)
plt.hist(x_late,number)
plt.show()
清理异常值(MAD:绝对中位差)相关推荐
- 机器学习数据预处理之离群值/异常值:MAD法(绝对值差中位数法)+绝对中位差(Median Absolute Deviation,MAD)
机器学习数据预处理之离群值/异常值:MAD法(绝对值差中位数法)+绝对中位差(Median Absolute Deviation,MAD) garbage in,garbage out. 异常值是分析 ...
- 绝对中位差( Median Absolute Deviation,MAD)算法
绝对中位差( MedianAbsolute Deviation,MAD) 是一种采用计算各观测值与平均值的距离总和的检测离群值的方法. 本文中主要用来剔除获取到的图像坐标中的离群点. 算法步骤: #离 ...
- Median Absolute Deviation(MAD,绝对中位差)和3sigma准则剔除粗差方法对比(代码)
根据文献: Klos A, Bogusz J, Figurski M, Kosek W (2016) On the handling of outliers in the GNSS time seri ...
- python_异常值_EllipticEnvelope法和四分位差法
python_异常值_EllipticEnvelope法和四分位差法 # 加载库 import numpy as np from sklearn.covariance import EllipticE ...
- 正确的清理DriverStore文件夹中的驱动程序
正确的清理DriverStore文件夹中的驱动程序 原文地址: 正确的清理DriverStore文件夹中的驱动程序 不少人发现,Windows使用一段时间后,C:\Windows\System32\D ...
- sql tempdb清理_SQL Server 2019中的内存优化的TempDB元数据
sql tempdb清理 介绍 (Introduction) In-memory technologies are one of the greatest ways to improve perfor ...
- 程序员教你清理干净办公电脑中个人帐号及信息
阅读时长:3分钟 适用场景:清理非个人电脑个人信息,离职前清理电脑中个人信息 本文目录 一.清理浏览器中保存的帐号密码 二.清理客户端软件帐号 三.清理用户文件夹及相关缓存文件夹 四.清理帐号凭证 五 ...
- Google云端硬盘已满?如何检查与删除清理Google云端硬盘中的重复的文件
有几种基于云的存储选项,但可以说Google云端硬盘是最受欢迎和最容易使用的存储之一.但是,如果您定期使用Google云端硬盘,则很有可能会有大量重复文件.而且与Mac上的台式机不同,关闭浏览器而不理 ...
- oracle12c 清理归档,Oracle 12c中数据删除(delete)新特性之数据库内归档功能
有些应用有"标记删除"的概念,即不是删除数据,而是数据依然保留在表中,只是对应用不可见而已.这种需求通常通过如下方法实现: 1) 给相关表增加一个另外的列,该列存储标志数据被删除 ...
最新文章
- 浅谈android hook技术
- Spring核心系列之Spring中的事务
- Why docker command need sudo? | 为什么运行docker命令需要sudo?
- [原创]互联网金融App测试介绍
- 还在纠结是否入手M1 macbook?看完这篇文章再做决定也不迟!
- 关于等价鞅、反等价鞅、剀利公式、赌徒输光定理(非常有启发意义)
- 计算机用老毛桃u盘备份系统,如何一键备份还原系统?老毛桃一键备份系统详细步骤...
- 未安装任何音频输出设备 解决方案
- 利用python修改小米运动数据,整个朋友圈都感觉太夸张了
- 0x00000....蓝屏
- android银行卡输入密码,android 仿微信添加银行卡时输入支付密码
- 未认证公众号如何跳转其他链接
- 编写简单的计算器功能的程序
- linux传奇私服文件包,传奇私服服务器端文件结构
- sa结构组网方式_SA和NSA这两种组网模式?哪个才是5G最佳选择?
- linux生成mux节点,mux - 路由
- 配置GitHub二级域名,xxx.github.io
- 二阶系统阻尼比与稳定性的关系
- 再次碰见问题:fatal error LNK1181: 无法打开输入文件“xxx.lib”
- 计网 ---第7章 广域网