python数据处理之0值的替换缺失值的填充
python数据处理之0值的替换和缺失值的填充
- 零值的替换:replace()方法里面填充的是键值对结构,注意空值必须用numpy.NaN来取而不是用字符串null
data['AvgHomeValue'] = data['AvgHomeValue'].replace({0:np.NaN})
- 标记重复数据:用duplicated()方法
##todo 标记重复数据 并且增加新的一列dup来判断是否是重复的行 duplicated
data['dup'] = data.duplicated()
- 去重:通过刚刚获得的 ‘ dup ’列的数据来进行去重
data_dup = data[data['dup'] == True]
data_undup = data[data['dup'] == False]
- 缺失值的填充:
我这里以平均值填充为例,先取出整列的平均值,形成标记列,在对缺失值进行填充(三部)。
##todo 处理缺失值
Amean = data['Age'].mean(axis=0,skipna = True)
data['AgeFlag'] = data['Age'].isnull()
data['NewAge'] = data['Age'].fillna(Amean)
python数据处理之0值的替换缺失值的填充相关推荐
- python 矩阵运算出现0值_python 常见矩阵运算
python 的 numpy 库提供矩阵运算的功能,因此我们在需要矩阵运算的时候,需要导入 numpy 的包. 1.numpy 的导入和使用 from numpy import *;#导入numpy的 ...
- 【Python】np.where()替换缺失值
使用Python做数据分析时经常需要替换缺失值. 1. np.where(条件,x,y)np.where函数的结果是,如果"条件"为真,则x,否则y.2.如下import pand ...
- python数据处理工具-Pandas笔记
序列与数据框的构造 Pandas模块的核心操作对象就是序列Series和数据框DataFrame序列可以理解为数据集中的一个字段数据框是指含有至少两个字段(或序列)的数据集. 构造序列 可以通过以下几 ...
- python替换缺失值,处理空值+生成图形+图形标准化
本例用到的库及方法有:json库读取json文件,pandas中value_counts计数,fillna替换缺失值,空字符串替换,counts的plot方法生成图形 plot(kind='barh' ...
- python列表替换元素_24_Pandas.DataFrame,Series元素值的替换(replace)
24_Pandas.DataFrame,Series元素值的替换(replace) 要替换pandas.DataFrame,pandas.Series元素的值,请使用replace()方法. 这里,将 ...
- python concat去除重复值语句_Python数据处理从零开始----第二章(pandas)④数据合并和处理重复值...
目录 第二章(pandas) Python数据处理从零开始----第二章(pandas)④数据合并和处理重复值 ============================================ ...
- R语言缺失值替换:缺失的值(NA)替换每个分组最近的非缺失值
R语言缺失值替换:缺失的值(NA)替换每个分组最近的非缺失值 目录 R语言缺失值替换:缺失的值(NA)替换每个分组最近的非缺失值
- R语言dplyr包的mutate函数将列添加到dataframe中或者修改现有的数据列:使用na_if()函数将0值替换为NA值、负收入替换为NA值
R语言dplyr包的mutate函数将列添加到dataframe中或者修改现有的数据列:使用na_if()函数将0值替换为NA值.负收入替换为NA值 目录
- Python使用numpy中trim_zeros函数去除首尾0值的语法
Python使用numpy中trim_zeros函数去除首尾0值的语法 目录 Python使用numpy中trim_zeros函数去除首尾0值的语法 #numpy中trim_zeros
最新文章
- CSS之关系选择器(子元素、后代、兄弟选择器)
- 使用ECLIPSE制作可执行文件
- java 命令行 编译 jar文件_用命令行编译java并生成可执行的jar包
- Lanstar v2.2.0跨年版 三栏简约的typecho主题
- mysql 备库,【MySQL】数据库备库策略与脚本
- 【C++ STL】深入解析神秘的 --- 仿函数
- Data Pump failed with ORA-04031/ORA-4030?
- 锋神教我数据库,吴大哥教我写文档——其一
- 负载均衡调度算法追溯
- ext源码阅读 - DomHelper - createHtml,insertHtml
- php post重复提交session,PHP加Session防止表单重复提交的解决方法
- Visual Studio添加Numpy
- matlab43个神经网络分析代码,《MATLAB 神经网络43个案
- 地图比例尺与空间分辨率之间的关系_地图比例尺与分辨率
- plc的毕业设计冷门题目_PLC毕业设计----PLC毕业设计题目汇总
- linux 定时任务 非root,linux下的计划任务——只执行一次的定时任务,
- Simon IELTS: Reading
- oracle 拉里 网线通道,拉里.埃里森:Oracle云计算服务进入超速增长阶段
- Linux就这个范儿 第14章 身在江湖
- 一款png生成webp,gif, apng,同时支持webp,gif, apng转化的工具iSparta