再一次的通过写文章的方式强化记忆,本文内容均来源于以上文章。先说如何处理检测到的异常值?

有些算法对异常值很敏感,如逻辑回归算法。如果不处理,用该算法拟合出来的模型的效果、精确度会很低。有些算法对异常值不敏感,可以不处理异常值。由于目前学习到的3种算法(线性回归、逻辑回归、随机森林),所以还是处理异常值

处理异常值可以像处理缺失值的方法一样:删除或用特殊值代替如何查找到异常值?查看数据的描述统计信息describe()

import pandas

df.describe() #只针对数值类型数据

2. 绘制散点图

3. 绘制数据分布图3σ原则:如果数据呈正态分布,异常值定义为超过3倍标准差的数值

如果数据不满足正态分布,也可以用远离平均值多少倍标准差来定义异常值

4. 四分位距法只取上四分位数(Q1)到下四分位数(Q3)之间的数据。

四分位距法:将数据从小到大排列,只取中间的50%。也就是25%到75%段的数据。可以有效剔除异常值(极大/极小值)。

计算四分位数 Q1、Q3

【例】给出一组数据:2 3 1 4 2 3 9 7 15 99 38 888 19

将它们从小到大重新排序:1 2 2 3 3 4 7 9 15 19 38 99 888

找出从整个数据的中位数Q2:7

找出从极小值到Q2这段数据的中位数Q1:3

找出Q2到极大值这段数据的中位数Q3:19

5. Tukey's test只取最小估计值到最大估计值之间的数据。

最小估计值=Q1-k(Q3-Q1)

最大估计值=Q1+k(Q3-Q1)

k=1.5 中度异常 k=3 极度异常

用numpy包里的percentile函数来实现tukey's test

import numpy

percentile=numpy.percentile(df['length'],[0,25,50,75,100])

Min=percentile[1]-1.5*(percentile[3]-percentile[1])

Max=percentile[1]+1.5*(percentile[3]-percentile[1])

6. 绘制箱型图boxplot

import seaborn

from matplotlib import pyplot

f,ax=pyplot.subplots(figsize=(10,8))

seaborn.boxplot(y='length',data=df,ax=ax)

pyplot.show()

以上是检测异常值的常用的简单方法。还有一些复杂的算法可以检测异常值,之后再根据需要和兴趣继续学习

python异常值处理实例_Python机器学习:异常值查找和处理相关推荐

  1. python多元线性回归实例_Python机器学习多元线性回归模型 | kTWO-个人博客

    前言 在上一篇文章<机器学习简单线性回归模型>中我们讲解分析了Python机器学习中单输入的线性回归模型,但是在实际生活中,我们遇到的问题都是多个条件决定的问题,在机器学习中我们称之为多元 ...

  2. python图像压缩主成分分析实例_python机器学习API介绍13: 数据降维及主成分分析...

    数据降维概述:数据降维是机器学习领域中重要的内容,所谓的降维就是采用某种映射方法,将高维空间中的数据点映射到低维的空间中.其本质是学习一个映射函数f: x->y.其中x是原始数据点的表述,目前多 ...

  3. python闭包应用实例_Python中的闭包详细介绍和实例

    一.闭包 来自wiki: 闭包(Closure)是词法闭包(Lexical Closure)的简称,是引用了自由变量的函数.这个被引用的自由变量将和这个函数一同存在,即使已经离开了创造它的环境也不例外 ...

  4. python接口脚本实例_python图形用户接口实例详解

    本文实例为大家分享了python图形用户接口实例的具体代码,供大家参考,具体内容如下 运用tkinter图形库,模拟聊天应用界面,实现信息发送. from tkinter import * impor ...

  5. python温度转换实例_Python温度转换实例分析

    Python温度转换实例分析 本文主要研究的是Python语言实现温度转换的相关实例,具体如下. 代码如下: #TempConvert.py val=input("请输入带有温度表示符号的温 ...

  6. python异常值处理实例_Python异常值处理与检测

    缺失值处理 pandas判断缺失值一般采用 isnull(),然而生成所有数据的true.false矩阵,对于庞大的数据很难一眼看出缺失数据的位置. 缺失值查看 测试数据采用了随机生成. >&g ...

  7. python决策树实例_Python机器学习之决策树算法实例详解

    本文实例讲述了Python机器学习之决策树算法.分享给大家供大家参考,具体如下: 决策树学习是应用最广泛的归纳推理算法之一,是一种逼近离散值目标函数的方法,在这种方法中学习到的函数被表示为一棵决策树. ...

  8. python人工智能课程实例_python人工智能AI深度学习/机器学习全套课程 视频教程+ppt+代码...

    这是一套Python/人工智能/AI/机器学习/深度学习 全套实战课程,包含视频教程以及文档.源码等,欢迎下载 01. python数据分析与机器学习实战 02.深度学习入门视频课程(上篇) 03.深 ...

  9. pca降维python实例_Python机器学习笔记:使用scikit-learn工具进行PCA降维

    之前总结过关于PCA的知识:深入学习主成分分析(PCA)算法原理.这里打算再写一篇笔记,总结一下如何使用scikit-learn工具来进行PCA降维. 在数据处理中,经常会遇到特征维度比样本数量多得多 ...

最新文章

  1. linux命令输入错误怎么弄,Linux下用shopt命令来帮我们自动纠错输入cd 错误
  2. 树上分治详解 超级详细(附带例题 poj1741(给了题目))
  3. [官方摘要]Setup And Configuration memcached with Tomcat
  4. Lucene源代码学习之 PackedInts
  5. date 的基本使用 suse
  6. android中requestFocus 以及与setFocusable的区别
  7. 编码程序教程_如何从编码教程到构建自己的项目
  8. Wings-让单元测试智能全自动生成
  9. 服务器可以显示的血量显示,魔兽世界怀旧服怪物如何显示血量
  10. 深度学习中常见的Normalization总结—Batch Normalization,Instance Normalization
  11. 机器学习笔记(十二):随机梯度下降
  12. SSH 登录太慢的解决方法
  13. pos 指令集 linux,Linux系统下10大开源POS系统
  14. 用k-mer分析进行基因组调查(genome survey):(三)用KMC进行k-mer频数统计
  15. linux邮件客户端配置文件,在Deepin V20下配置Evolution邮件客户端,添加新邮箱全过程...
  16. python3 解压7z文件
  17. Gephi安装教程——1
  18. 普华i-VirtualApp应用交付系统介绍
  19. 宝付国际跨境知识小课堂 | 人民币外汇市场是个啥?
  20. 公众号排版|点击图片播放音乐你不会还不会吧

热门文章

  1. OFDM 经典整偏估计方法(基于长训练序列)
  2. “双非”渣本投岗爱奇艺(Java),三轮技术面等消息,侥幸通过!
  3. 最小生成树之prim算法(邻接表和邻接矩阵)
  4. C++高级编程(第3版)_学习记录
  5. 巧用60分钟k线战法把握卖点
  6. python zip函数
  7. 如何学习3D Three.js 3D引擎
  8. 17、经验贝叶斯估计
  9. Matplotlib.pyplot绘图讲解
  10. 零点工作室暑假集训(AtCoder--ABC234)