常用的数据预处理方法
一、删除处理
data.drop()
默认参数axis=0,表示对行index进行操作,如需对columns进行操作需要更改默认参数为axis=1;默认参数inplace=False,表示该删除操作不改变原数据,而是返回一个执行删除操作后的新dataframe,如需直接在原数据上进行删除操作,需要更改默认参数为inplace=True,删除后数据无法恢复
data.dropna()
DataFrame.dropna(axis=0, how=‘any’, thresh=None, subset=None, inplace=False)
官方文档为过滤缺失数据,how中any表示带缺失值的所有行,'all’指清除全是缺失值的行;thresh,int,保留含有int个非空值的行;subset对特定的列进行缺失值删除处理;axis、inplace与drop函数一致
二、填充数据
fillna()函数
fillna()会填充nan数据,返回填充后的结果。如果希望在原DataFrame中修改,则把inplace设置为True。dataframe.fillna() 对空值进行填充,一般就直接在括号里添加需要填充的数值
data.mean() 计算平均值(data[‘Age’].mean() 计算Age列的平均值)
三、将分类变量转化为数值型变量
1、astype
type获取数据类型;dtype 数组元素的类型;astype 修改数据类型
参考文章:https://www.cnblogs.com/fuhang/p/8045973.html
2、先用unique获取列的值转化为list,再替换
unique用法:获取列值
tolist用法:将数组或矩阵转化为列表
apply()用法
参考文章:https://blog.csdn.net/chenyulancn/article/details/40142797
格式:apply(func,*args,**kwargs)
用法:当一个函数的参数存在于一个元组或者一个字典中时,用来间接的调用这个函数,并肩元组或者字典中的参数按照顺序传递给参数
解析:args是一个包含按照函数所需参数传递的位置参数的一个元组,是不是很拗口,意思就是,假如A函数的函数位置为 A(a=1,b=2),那么这个元组中就必须严格按照这个参数的位置顺序进行传递(a=3,b=4),而不能是(b=4,a=3)这样的顺序
kwargs是一个包含关键字参数的字典,而其中args如果不传递,kwargs需要传递,则必须在args的位置留空
返回值:即函数的返回值
常用的数据预处理方法相关推荐
- python常用的数据预处理方法
2019独角兽企业重金招聘Python工程师标准>>> 转载自:http://2hwp.com/2016/02/03/data-preprocessing/ 常见的数据预处理方法,以 ...
- sklearn中常用的数据预处理方法
常见的数据预处理方法,以下通过sklearn的preprocessing模块来介绍; 1. 标准化(Standardization or Mean Removal and Variance Scali ...
- Sklearn常用数据预处理方法介绍
主要介绍了Sklearn中常用的数据预处理方法. 数据预处理 1.导入用到的库 import numpy as np import pandas as pd from sklearn.preproce ...
- AI识虫:林业病虫害数据集和数据预处理方法
林业病虫害数据集和数据预处理方法 林业病虫害数据集和数据预处理 读取AI识虫数据集标注信息 数据读取和预处理 数据读取 使用百度与林业大学合作开发的林业病虫害防治项目中用到昆虫数据集.在这一小节中将为 ...
- sklearn中的数据预处理方法学习汇总
文章目录 sklearn中的数据预处理方法学习 一.标准化 Z-score标准化 Z-score标准化学习 Z-score标准化实现 Min-max标准化 MaxAbs标准化 二.非线性转换 映射到均 ...
- 林业病虫害数据集和数据预处理方法介绍
内容都是百度AIstudio的内容,我只是在这里做个笔记,不是原创. 林业病虫害数据集和数据预处理方法介绍 在本次的课程中,将使用百度与林业大学合作开发的林业病虫害防治项目中用到昆虫数据集,关于该项目 ...
- python数据预处理的方法_python中常用的九种数据预处理方法
python中常用的九种预处理方法分享 本文总结的是我们大家在python中常见的数据预处理方法,以下通过sklearn的preprocessing模块来介绍; 1. 标准化(Standardizat ...
- 数据挖掘导论 复习一(介绍+数据预处理方法+定性归纳)
数据挖掘=数据库+机器学习 算法 经验 模型 机器学习任务:分类.回归.聚类(KMeans.DCSAN.层次聚类).数据降维.数据预处理 常用分类器:KNN.贝叶斯. 逻辑回归 .决策树.随机森林 本 ...
- 大数据预处理方法,来看看你知道几个
大数据蕴含巨大价值,引起了社会各界的高度关注.大数据的来源多种多样,从现实世界中采集的数据大体上都是不完整.不一致的脏数据,无法直接进行数据挖掘和分析,或分析挖掘的结果差强人意.为了提高数据分析挖掘的 ...
最新文章
- 找出两个字符串中最大子字符串,如abractyeyt,dgdsaeactyey的最大子串为actyet
- android108 内存分配
- LeetCode45 Jump Game II
- mysql 5.0 修改字符集_修改及查看mysql数据库的字符集
- 给自己的Blog 上添加定制的搜索引擎
- 营业执照在线一键生成_如何在线制作证件照?证件照一键生成的方法
- python自动取款机程序_python ATM取款机----运维开发初学(上篇)
- python24点4张扑克_Python实现扑克24点小游戏 ,从此我就没输过
- 简单api_GraphQL API集成的简要介绍
- Swift去除两边的特定字符(空格或其它)
- 计算机算法设计与分析第四版在线,计算机算法设计与分析(第4版) 王晓东习题解答计算机算法设计与分析(第4版) 王晓东习题解答.pdf...
- python人工智能教程百度云_【python实战教程百度网盘】求最新python人工智能视频教程网盘链接...
- easy chm 绿色免安装版
- 椭圆部分面积计算公式及微积分推导过程
- 眉目传情之匠心独运的kfifo
- 方舟服务器能不能用ce修改器,方舟生存进化CE修改器代码大全
- 盒子拖拽效果,原生js实现
- 黑马C++笔记——模板(CPP)
- 自编码器(autoencoder)了解一下
- 程序员数字_作为社会科学程序员处理不同的数字数据
热门文章
- python中iloc切片_如何使用iloc和loc 对Pandas Dataframe进行索引和切片
- 发现一个 很好的网站,可以画漫画。
- 学生必装的学习类APP软件
- 基于DCGAN动漫头像生成的意义用论文方式表达
- 人生如戏,戏如人生——《楚门的世界》
- zabbix3.4 监控路由器报错No Such Instance currently exists at this OID
- matlab2c使用c++实现matlab函数系列教程-sinc函数
- python银行定期存款利率_银行员工说漏嘴:一年之中,这些时间段去存钱,银行给的利息最高...
- string字符串转Int列表List
- STATA画图命令(二)