python异常值处理实例_Python机器学习:异常值查找和处理
再一次的通过写文章的方式强化记忆,本文内容均来源于以上文章。先说如何处理检测到的异常值?
有些算法对异常值很敏感,如逻辑回归算法。如果不处理,用该算法拟合出来的模型的效果、精确度会很低。有些算法对异常值不敏感,可以不处理异常值。由于目前学习到的3种算法(线性回归、逻辑回归、随机森林),所以还是处理异常值
处理异常值可以像处理缺失值的方法一样:删除或用特殊值代替如何查找到异常值?查看数据的描述统计信息describe()
import pandas
df.describe() #只针对数值类型数据
2. 绘制散点图
3. 绘制数据分布图3σ原则:如果数据呈正态分布,异常值定义为超过3倍标准差的数值
如果数据不满足正态分布,也可以用远离平均值多少倍标准差来定义异常值
4. 四分位距法只取上四分位数(Q1)到下四分位数(Q3)之间的数据。
四分位距法:将数据从小到大排列,只取中间的50%。也就是25%到75%段的数据。可以有效剔除异常值(极大/极小值)。
计算四分位数 Q1、Q3
【例】给出一组数据:2 3 1 4 2 3 9 7 15 99 38 888 19
将它们从小到大重新排序:1 2 2 3 3 4 7 9 15 19 38 99 888
找出从整个数据的中位数Q2:7
找出从极小值到Q2这段数据的中位数Q1:3
找出Q2到极大值这段数据的中位数Q3:19
5. Tukey's test只取最小估计值到最大估计值之间的数据。
最小估计值=Q1-k(Q3-Q1)
最大估计值=Q1+k(Q3-Q1)
k=1.5 中度异常 k=3 极度异常
用numpy包里的percentile函数来实现tukey's test
import numpy
percentile=numpy.percentile(df['length'],[0,25,50,75,100])
Min=percentile[1]-1.5*(percentile[3]-percentile[1])
Max=percentile[1]+1.5*(percentile[3]-percentile[1])
6. 绘制箱型图boxplot
import seaborn
from matplotlib import pyplot
f,ax=pyplot.subplots(figsize=(10,8))
seaborn.boxplot(y='length',data=df,ax=ax)
pyplot.show()
以上是检测异常值的常用的简单方法。还有一些复杂的算法可以检测异常值,之后再根据需要和兴趣继续学习
python异常值处理实例_Python机器学习:异常值查找和处理相关推荐
- python多元线性回归实例_Python机器学习多元线性回归模型 | kTWO-个人博客
前言 在上一篇文章<机器学习简单线性回归模型>中我们讲解分析了Python机器学习中单输入的线性回归模型,但是在实际生活中,我们遇到的问题都是多个条件决定的问题,在机器学习中我们称之为多元 ...
- python图像压缩主成分分析实例_python机器学习API介绍13: 数据降维及主成分分析...
数据降维概述:数据降维是机器学习领域中重要的内容,所谓的降维就是采用某种映射方法,将高维空间中的数据点映射到低维的空间中.其本质是学习一个映射函数f: x->y.其中x是原始数据点的表述,目前多 ...
- python闭包应用实例_Python中的闭包详细介绍和实例
一.闭包 来自wiki: 闭包(Closure)是词法闭包(Lexical Closure)的简称,是引用了自由变量的函数.这个被引用的自由变量将和这个函数一同存在,即使已经离开了创造它的环境也不例外 ...
- python接口脚本实例_python图形用户接口实例详解
本文实例为大家分享了python图形用户接口实例的具体代码,供大家参考,具体内容如下 运用tkinter图形库,模拟聊天应用界面,实现信息发送. from tkinter import * impor ...
- python温度转换实例_Python温度转换实例分析
Python温度转换实例分析 本文主要研究的是Python语言实现温度转换的相关实例,具体如下. 代码如下: #TempConvert.py val=input("请输入带有温度表示符号的温 ...
- python异常值处理实例_Python异常值处理与检测
缺失值处理 pandas判断缺失值一般采用 isnull(),然而生成所有数据的true.false矩阵,对于庞大的数据很难一眼看出缺失数据的位置. 缺失值查看 测试数据采用了随机生成. >&g ...
- python决策树实例_Python机器学习之决策树算法实例详解
本文实例讲述了Python机器学习之决策树算法.分享给大家供大家参考,具体如下: 决策树学习是应用最广泛的归纳推理算法之一,是一种逼近离散值目标函数的方法,在这种方法中学习到的函数被表示为一棵决策树. ...
- python人工智能课程实例_python人工智能AI深度学习/机器学习全套课程 视频教程+ppt+代码...
这是一套Python/人工智能/AI/机器学习/深度学习 全套实战课程,包含视频教程以及文档.源码等,欢迎下载 01. python数据分析与机器学习实战 02.深度学习入门视频课程(上篇) 03.深 ...
- pca降维python实例_Python机器学习笔记:使用scikit-learn工具进行PCA降维
之前总结过关于PCA的知识:深入学习主成分分析(PCA)算法原理.这里打算再写一篇笔记,总结一下如何使用scikit-learn工具来进行PCA降维. 在数据处理中,经常会遇到特征维度比样本数量多得多 ...
最新文章
- linux命令输入错误怎么弄,Linux下用shopt命令来帮我们自动纠错输入cd 错误
- 树上分治详解 超级详细(附带例题 poj1741(给了题目))
- [官方摘要]Setup And Configuration memcached with Tomcat
- Lucene源代码学习之 PackedInts
- date 的基本使用 suse
- android中requestFocus 以及与setFocusable的区别
- 编码程序教程_如何从编码教程到构建自己的项目
- Wings-让单元测试智能全自动生成
- 服务器可以显示的血量显示,魔兽世界怀旧服怪物如何显示血量
- 深度学习中常见的Normalization总结—Batch Normalization,Instance Normalization
- 机器学习笔记(十二):随机梯度下降
- SSH 登录太慢的解决方法
- pos 指令集 linux,Linux系统下10大开源POS系统
- 用k-mer分析进行基因组调查(genome survey):(三)用KMC进行k-mer频数统计
- linux邮件客户端配置文件,在Deepin V20下配置Evolution邮件客户端,添加新邮箱全过程...
- python3 解压7z文件
- Gephi安装教程——1
- 普华i-VirtualApp应用交付系统介绍
- 宝付国际跨境知识小课堂 | 人民币外汇市场是个啥?
- 公众号排版|点击图片播放音乐你不会还不会吧