python数据处理之0值的替换和缺失值的填充

  • 零值的替换:replace()方法里面填充的是键值对结构,注意空值必须用numpy.NaN来取而不是用字符串null
data['AvgHomeValue'] = data['AvgHomeValue'].replace({0:np.NaN})
  • 标记重复数据:用duplicated()方法
##todo  标记重复数据 并且增加新的一列dup来判断是否是重复的行 duplicated
data['dup'] = data.duplicated()
  • 去重:通过刚刚获得的 ‘ dup ’列的数据来进行去重
data_dup = data[data['dup'] == True]
data_undup = data[data['dup'] == False]
  • 缺失值的填充:

    我这里以平均值填充为例,先取出整列的平均值,形成标记列,在对缺失值进行填充(三部)。
##todo 处理缺失值
Amean =  data['Age'].mean(axis=0,skipna = True)
data['AgeFlag'] = data['Age'].isnull()
data['NewAge'] = data['Age'].fillna(Amean)

python数据处理之0值的替换缺失值的填充相关推荐

  1. python 矩阵运算出现0值_python 常见矩阵运算

    python 的 numpy 库提供矩阵运算的功能,因此我们在需要矩阵运算的时候,需要导入 numpy 的包. 1.numpy 的导入和使用 from numpy import *;#导入numpy的 ...

  2. 【Python】np.where()替换缺失值

    使用Python做数据分析时经常需要替换缺失值. 1. np.where(条件,x,y)np.where函数的结果是,如果"条件"为真,则x,否则y.2.如下import pand ...

  3. python数据处理工具-Pandas笔记

    序列与数据框的构造 Pandas模块的核心操作对象就是序列Series和数据框DataFrame序列可以理解为数据集中的一个字段数据框是指含有至少两个字段(或序列)的数据集. 构造序列 可以通过以下几 ...

  4. python替换缺失值,处理空值+生成图形+图形标准化

    本例用到的库及方法有:json库读取json文件,pandas中value_counts计数,fillna替换缺失值,空字符串替换,counts的plot方法生成图形 plot(kind='barh' ...

  5. python列表替换元素_24_Pandas.DataFrame,Series元素值的替换(replace)

    24_Pandas.DataFrame,Series元素值的替换(replace) 要替换pandas.DataFrame,pandas.Series元素的值,请使用replace()方法. 这里,将 ...

  6. python concat去除重复值语句_Python数据处理从零开始----第二章(pandas)④数据合并和处理重复值...

    目录 第二章(pandas) Python数据处理从零开始----第二章(pandas)④数据合并和处理重复值 ============================================ ...

  7. R语言缺失值替换:缺失的值(NA)替换每个分组最近的非缺失值

    R语言缺失值替换:缺失的值(NA)替换每个分组最近的非缺失值 目录 R语言缺失值替换:缺失的值(NA)替换每个分组最近的非缺失值

  8. R语言dplyr包的mutate函数将列添加到dataframe中或者修改现有的数据列:使用na_if()函数将0值替换为NA值、负收入替换为NA值

    R语言dplyr包的mutate函数将列添加到dataframe中或者修改现有的数据列:使用na_if()函数将0值替换为NA值.负收入替换为NA值 目录

  9. Python使用numpy中trim_zeros函数去除首尾0值的语法

    Python使用numpy中trim_zeros函数去除首尾0值的语法 目录 Python使用numpy中trim_zeros函数去除首尾0值的语法 #numpy中trim_zeros

最新文章

  1. CSS之关系选择器(子元素、后代、兄弟选择器)
  2. 使用ECLIPSE制作可执行文件
  3. java 命令行 编译 jar文件_用命令行编译java并生成可执行的jar包
  4. Lanstar v2.2.0跨年版 三栏简约的typecho主题
  5. mysql 备库,【MySQL】数据库备库策略与脚本
  6. 【C++ STL】深入解析神秘的 --- 仿函数
  7. Data Pump failed with ORA-04031/ORA-4030?
  8. 锋神教我数据库,吴大哥教我写文档——其一
  9. 负载均衡调度算法追溯
  10. ext源码阅读 - DomHelper - createHtml,insertHtml
  11. php post重复提交session,PHP加Session防止表单重复提交的解决方法
  12. Visual Studio添加Numpy
  13. matlab43个神经网络分析代码,《MATLAB 神经网络43个案
  14. 地图比例尺与空间分辨率之间的关系_地图比例尺与分辨率
  15. plc的毕业设计冷门题目_PLC毕业设计----PLC毕业设计题目汇总
  16. linux 定时任务 非root,linux下的计划任务——只执行一次的定时任务,
  17. Simon IELTS: Reading
  18. oracle 拉里 网线通道,拉里.埃里森:Oracle云计算服务进入超速增长阶段
  19. Linux就这个范儿 第14章 身在江湖
  20. 一款png生成webp,gif, apng,同时支持webp,gif, apng转化的工具iSparta

热门文章

  1. PhotonServer入门教程
  2. ABAQUS学习(教你学会看写 input 文件)
  3. 第十二届蓝桥杯省赛详解
  4. 每次打开micorsoft office(2007、2010、2013..)软件出现配置进度的原因及解决办法
  5. 18-Linux网络协议和管理
  6. JAVA 反射机制
  7. 模拟(婚礼上的小杉vijos1389)
  8. 同济大学计算机系陈永生,陈永生
  9. python和rhino的数据交互
  10. LabVIEW通讯-GPIB