机器学习对异常值的处理方法

背景

实际应用中,数据往往存在异常值,面对异常值,我们主要有几种思路:把异常值去掉,用其他数值代替异常值,对异常值进行变换。

1.异常值检测方法

1.1 box plot

使用分位数Q1 、Q3,设置控制线,在控制线外的就当做异常值。

Interquartile range is given by, IQR = Q3 — Q1Upper limit = Q3+1.5*IQRLower limit = Q1–1.5*IQR

2.异常值处理方法

2.1 Winsorizing

这种方法把值(0.05,0.95)外的值使用这个区间的最小或最大值代替。

2.2 去除法

使用IQR或者其他方法检测异常值后,直接去除

2.3 变换法

使用 log 变换,改变原来变量的分布。

几种处理方法效果比较:


reference

  1. 异常值处理方法;

机器学习对异常值处理方法相关推荐

  1. 独家 | 每个数据科学家应该知道的五种检测异常值的方法(附Python代码)

    作者:Will Badr 翻译:顾伟嵩校对:欧阳锦本文约1600字,建议阅读5分钟本文介绍了数据科学家必备的五种检测异常值的方法. 无论是通过识别错误还是主动预防,检测异常值对任何业务都是重要的.本文 ...

  2. python异常数据处理_Python数据处理:异常值处理方法之3σ原则

    原标题:Python数据处理:异常值处理方法之3σ原则 一.3σ原则定义 异常值是指样本中的个别值,其数值明显偏离其余的观测值.异常值也称离群点,异常值的分析也称为离群点的分析. 在进行机器学习过程中 ...

  3. 五种常用异常值检测方法

    Toggle navigation 首页 产业趋势 专家观察 CISO洞察 决策研究 登录 APP下载 数据挖掘最前线:五种常用异常值检测方法 安全运营 机器之心 2019-07-05 通过鉴别故障来 ...

  4. 机器学习中的优化方法小结

    来源|福大命大@知乎,https://zhuanlan.zhihu.com/p/158215009 前几天听了林宙辰老师的一个报告,讲的是机器学习中的优化方法[1],做个笔记.推荐机器学习的人去听听. ...

  5. 机器学习数据整合+pandas方法astype、merge、drop、to_numeric、concat等

    机器学习数据整合+pandas方法astype.merge.drop.to_numeric.concat等 # 合并两个数据集的数据并进行特征处理 def combine_features(self, ...

  6. ML之Validation:机器学习中模型验证方法的简介、代码实现、案例应用之详细攻略

    ML之Validation:机器学习中模型验证方法的简介.代码实现.案例应用之详细攻略 目录 模型验证方法的简介 1.Hold-out验证 2.K-折交叉验证 3.自助重采样 模型验证方法的代码实现 ...

  7. 机器学习(十一)——机器学习中的矩阵方法(1)LU分解、QR分解

    http://antkillerfarm.github.io/ 因子分析的EM估计(续) 去掉和各参数无关的部分后,可得: ∑i=1mE[logp(x(i)|z(i);μ,Λ,Ψ)]=∑i=1mE[1 ...

  8. 基于密度的异常值检测方法整理

    基于密度的异常值检测方法的原理认为正常样本点所处的类簇密度要高于异常点样本所处的类簇密度.为解决实际异常值检测情况 中出现的问题,有一种基于局部异常因子 LOF 方法.

  9. 机器学习之常用优化方法(GD、牛顿、拟牛顿、拉格朗日乘子)

    写在前面,本文只记录了个人认为的关键点,仅供参考.更多细节请参考链接中文章 参考1:机器学习之常用优化方法 参考2:拉格朗日乘数法 梯度下降法 梯度下降法是最早最简单,也是最为常用的最优化方法.梯度下 ...

最新文章

  1. 一本读懂BERT(实践篇)重点
  2. IDEA Reference - Essentials(基本要义)
  3. 空调系统故障类型与故障案例集
  4. 常见电脑字符编码总结
  5. 古人把月球叫做广寒宫,古人是怎么知道月球上很冷的?一起来看看
  6. 腾讯x5加载本地html乱码,腾讯X5内核播放器遇到的问题
  7. python ThreadPoolExecutor线程池(实例)
  8. 新版知识付费系统付费阅读小程序源码知识付费平台
  9. J2EE代码存档--导出Excel
  10. Jacobian矩阵、Hessian矩阵
  11. C#对称加密(3des)和非对称加密(rsa)算法
  12. C#使用OpcNetApi.dll和OpcNetApi.Com.dll操作OPC
  13. 【Webcam设计】利用底层V4L2+OPENCV进行图像处理以及移植策略
  14. MySQL Buffer Pool缓冲池总结
  15. JavaSE基础——异常机制
  16. Java编程公鸡5元一只,母鸡3元一只,小鸡1元三只,问100元怎样可以买100鸡?
  17. Linux 搭建NodeBB社区,搭建CAS登录认证平台,实现Nodebb接入企业CAS认证(二)
  18. 全球100位最佳工程师,开发人员,编码人员和企业家,可以在线关注他们的github,推特,网站等
  19. 干货 | Trip.com Android 11 适配之旅
  20. 3D-3D:ICP_SVD

热门文章

  1. 使用you-get下载网页视频和歌曲
  2. linux下安装pycharm社区版
  3. 针对管家婆 登录 密码加密js分析(学习第二天)
  4. CVPR2017:密集连接的卷积网络DenseNet《Densely Connected Convolutional Networks》
  5. UI UX 小提示合集 -- 第一集
  6. 国外优秀教材的英文pdf网站下载地址
  7. mplus 软件_多水平数据分析:R、Mplus和 HLM 应用对比
  8. 手机连无线网后没有网络连接到服务器,手机无线网络连接上但上不了网
  9. 《优秀企业家旺财风水》必修课
  10. VMware高版本转VMware低版本