# -*- coding: utf-8 -*-# @File    : deal_null_demo.py
# @Date    :  2020-02-18 16:25
# @Author  : admin
import pandas as pd
from sklearn.cluster import KMeans
#获取数据的null值
def p_max_min_null():datafile = '../data/air_data.csv'resultfile = 'tmp/explore.xls'data = pd.read_csv(datafile, encoding='utf-8')explore = data.describe(percentiles=[], include='all').Tprint(explore)print(explore['count'])#求空值数explore['null'] = len(data) - explore['count']print(explore['null'] )#截取部分列,组成子集explore = explore[['null', 'max', 'min']]print("===================================")print(explore)'''函数自动计算的字段有count(非空值数)、unique(唯一值数)、top(频数最高者)、freq(最高频数)、mean(平均值)、std(方差)、min(最小值)、50 %(中位数)、max(最大值)'''#获取数据的非0数据
def  p_not_0():datafile = '../data/air_data.csv'cleanedfile = 'tmp/data_cleaned.csv'data = pd.read_csv(datafile, encoding='utf-8')#截取显示的部分列#print(data[['GENDER',"WORK_PROVINCE"]]);#获取票价非零的,或者平均折扣率与总飞行公里数同时为0的记录;#1.先获取不为null的数据,在这里换做&运算data = data[data['SUM_YR_1'].notnull() & data['SUM_YR_2'].notnull()]# 只保留票价非零的,或者平均折扣率与总飞行公里数同时为0的记录。#2.再获取不为0的数据index1 = data['SUM_YR_1'] != 0index2 = data['SUM_YR_2'] != 0index3 = (data['SEG_KM_SUM'] == 0) & (data['avg_discount'] == 0)  # 该规则是“与”data = data[index1 | index2 | index3]  # 该规则是“或”print(data)
#3.数据标准化
def  p_standard():datafile = '../data/zscoredata.xls'zscoredfile = 'tmp/zscoreddata.xls'data = pd.read_excel(datafile)# 核心语句,实现标准化变换,类似地可以实现任何想要的变换。#根据z-score(标准差)标准化公式zij=(xij-xi)/si,其中zij是标准化后的变量值;# xij是实际变量值,xi为变量的算术平均值,si是变量的标准差,进行标准差标准化。data = (data - data.mean(axis=0)) / (data.std(axis=0))data.columns = ['Z' + i for i in data.columns]print(data);#data.to_excel(zscoredfile, index=False)if __name__ == "__main__":# p_max_min_null();#p_not_0();p_standard();pass

day03 数据预处理相关推荐

  1. 机器学习PAL数据预处理

    机器学习PAL数据预处理 本文介绍如何对原始数据进行数据预处理,得到模型训练集和模型预测集. 前提条件 完成数据准备,详情请参见准备数据. 操作步骤 登录PAI控制台. 在左侧导航栏,选择模型开发和训 ...

  2. 深度学习——数据预处理篇

    深度学习--数据预处理篇 文章目录 深度学习--数据预处理篇 一.前言 二.常用的数据预处理方法 零均值化(中心化) 数据归一化(normalization) 主成分分析(PCA.Principal ...

  3. 目标检测之Faster-RCNN的pytorch代码详解(数据预处理篇)

    首先贴上代码原作者的github:https://github.com/chenyuntc/simple-faster-rcnn-pytorch(非代码作者,博文只解释代码) 今天看完了simple- ...

  4. 第七篇:数据预处理(四) - 数据归约(PCA/EFA为例)

    前言 这部分也许是数据预处理最为关键的一个阶段. 如何对数据降维是一个很有挑战,很有深度的话题,很多理论书本均有详细深入的讲解分析. 本文仅介绍主成分分析法(PCA)和探索性因子分析法(EFA),并给 ...

  5. 数据预处理--噪声_为什么数据对您的业务很重要-以及如何处理数据

    数据预处理--噪声 YES! Data is extremely important for your business. 是! 数据对您的业务极为重要. A human body has five ...

  6. 数据预处理(完整步骤)

    原文:http://dataunion.org/5009.html 一:为什么要预处理数据? (1)现实世界的数据是肮脏的(不完整,含噪声,不一致) (2)没有高质量的数据,就没有高质量的挖掘结果(高 ...

  7. 3D目标检测深度学习方法数据预处理综述

    作者 | 蒋天元 来源 | 3D视觉工坊(ID: QYong_2014) 这一篇的内容主要要讲一点在深度学习的3D目标检测网络中,我们都采用了哪些数据预处理的方法,主要讲两个方面的知识,第一个是rep ...

  8. 整理一份详细的数据预处理方法

    作者:lswbjtu https://zhuanlan.zhihu.com/p/51131210 编辑:机器学习算法与Python实战 为什么数据处理很重要? 熟悉数据挖掘和机器学习的小伙伴们都知道, ...

  9. pandas数据预处理(标准化归一化、离散化/分箱/分桶、分类数据处理、时间类型数据处理、样本类别分布不均衡数据处理、数据抽样)

    1. 数值型数据的处理 1.1 标准化&归一化 数据标准化是一个常用的数据预处理操作,目的是处理不同规模和量纲的数据,使其缩放到相同的数据区间和范围,以减少规模.特征.分布差异等对模型的影响. ...

最新文章

  1. matlab怎么分析一段音频,Matlab分析音频
  2. C++之父元旦专访(8+13个问题,关于C++的学习使用和未来)
  3. CodeForces - 1484E Skyline Photo(dp+单调栈)
  4. java地狱猫_ES6 ES6变量的声明
  5. hdu-4451-Dressing
  6. [Oracle] 别被View 整伤了
  7. 拓端tecdat|R语言对BRFSS数据探索回归数据分析
  8. C语言学习记录_2019.02.08
  9. 火山PC加载DLL窗口案例教程
  10. 反超苹果,微软重回全球市值第一!
  11. 计算机移动监控,AI技术和5G技术赋能移动监控领域,加速移动监控产品的迭代...
  12. fits文件的读取与查看
  13. Java设计模式:模板模式
  14. 用python与openpyxl操作excel(wps excel与office excel均可使用)
  15. mysql查询名字相同数据排列出来_mysql 的sql语句来查找重复数据,并让其都显示出来?...
  16. 制作杂志级图表的第二步:突破excel的图表元素
  17. 不确定性量化 (UQ) 可以显著提高预测准确性,在不确定的世界中获得最佳结果昆士兰大学Mike McKerns-中国学者网
  18. Gretna网络分析之先验知识
  19. 如何刷新本机DNS缓存(Win+Linux+OSX)
  20. 解决Teamviewer密码总是在变的问题

热门文章

  1. Spring Cloud Gateway(一)为什么用网关、能做什么、为什么选择Gateway、谓词工厂、过滤器配置
  2. 乌隆他尼皇家大学举办第48届泰国大学生运动会新闻发布会
  3. Linux tac命令
  4. python3通过request多进程获取驾校一点通试题库
  5. 含泪向小米贱卖处理器? 联发科:断章取义
  6. 干货!基于元消歧的偏多标记学习
  7. 第一个将Palette Mode引入VVC,阿里云在JVET会议上引起关注
  8. java短信接口_java调用短信接口代码
  9. maskrcnn训练问题报错:selected_polygons.append(self.polygons[i]) IndexError: list index out of range
  10. 苹果手机怎么用计算机隐藏应用,iphone怎么隐藏应用功能 iphone隐藏应用功能方法【详解】...