文章目录

  • 1、找数据集
  • 2、理解数据
  • 3、数据处理

1、找数据集

已经有数据集的跳过这一步。

找到合适的数据集。如何找数据集请查看一些其他教程。

2、理解数据

这一步主要是对自己找到的数据集要有一个总体的认识,而不需要对数据做出修改。

  1. 字段类型对于每一个字段,理解它的属性和意义。每个字段的类型,例如日期,整数,小数等;对于每个字段,查找相关的资料了解它的重要性及意义。
  2. 每个字段是否有缺失值,错误值(如整数字段出现字母,重复值)等。

3、数据处理

首先处理掉字段的错误值,然后再使用一些函数对数据进行处理。下面说一下常见错误的处理方式。

a. 缺失值

缺失值是指该字段没有值 或者 出现NaN, 还有一种情况就是在不允许出现0的字段中,出现了0。缺失值可以使用 平均值,中位数, 众数 等来进行填充。

b. 重复值

重复值有两种,一种是对于行来说,例如两行数据一模一样的,则可删除掉一行。另外一种是同一列中出现重复数据的,这种情况要考虑该字段是否允许出现重复值。

c. 奇异值

奇异值是指远远超过该数据正常范围的值, 可以通过箱线图来识别,而要准确处理掉这些异常值则需要求出四分位等相关值来帮助定位这些数据。

理论部分就讲到这里,如果有什么错误的希望大家包含和指正。后面再写一篇数据预处理实战的。

【理论】数据预处理流程相关推荐

  1. 珞珈1号-数据预处理流程

    珞珈1号-数据预处理流程 1.重投影Albers 2.重采样 3.辐射校正–将INT32转化为浮点型真实数据 4.统一量纲(eg:和NPP同一量纲) 5.去噪 1.重投影Albers 参考这篇文章 2 ...

  2. 【mmdetection3d】——03自定义数据预处理流程

    教程 3: 自定义数据预处理流程 数据预处理流程的设计 遵循一般惯例,我们使用 Dataset 和 DataLoader 来调用多个进程进行数据的加载.Dataset 将会返回与模型前向传播的参数所对 ...

  3. 基于FSL的DTI数据预处理流程

    最近在学习处理DTI数据,总结了一份应用FSL做DTI数据预处理的流程与大家交流交流.如果有错误的地方欢迎大家指正! 我用的数据是Philips的数据,如果是GE或者西门子的数据可能会有所不同. 原始 ...

  4. 数据分析与挖掘理论-数据预处理

    数据预处理 一般而言,数据分析和数据挖掘领域的处理的数据都是海量的数据,这样的数据难免会出现问题. 数据预处理占到数据挖掘工作的60%,这是最重要也是最核心的领域, 分为数据清洗.数据集成.数据变换和 ...

  5. NeoRS:新生儿静息态fMRI数据预处理流程

    大家好,这里是 "茗创科技" .茗创科技专注于脑科学数据处理,涵盖(EEG/ERP, fMRI,结构像,DTI,ASL, ,FNIRS)等,欢迎留言讨论及转发推荐,也欢迎了解茗创科 ...

  6. 比较婴儿fNIRS数据的不同预处理流程

    文章来源于微信公众号(茗创科技),欢迎有兴趣的朋友搜索关注. 导读 功能近红外光谱(fNIRS)是认知神经科学中一种重要的神经成像技术.但对于最佳的预处理流程还未达成共识.这个问题是非常有价值的,特别 ...

  7. Principles of fMRI 1课程笔记8--fMRI的数据预处理

    刚采集的原始图像数据会经过一系列的预处理步骤.这些步骤主要是分辨并去除伪影(Artifact),或者是检验一些模型所需的假设是否成立.具体来说,有三个目的: 尽量减少因为数据采集(Data acqui ...

  8. 英伟达DALI加速技巧:使数据预处理比原生PyTorch运算速度快4倍

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 你的数据处理影响整个训练速度,如果加上英伟达 DALI 库,处理速度比原生 PyT ...

  9. 英伟达DALI加速技巧:让数据预处理速度比原生PyTorch快4倍

    点击我爱计算机视觉标星,更快获取CVML新技术 本文转载自机器之心. 选自towardsdatascience 作者:Pieterluitjens 机器之心编译 参与:一鸣.嘉明.思 你的数据处理影响 ...

最新文章

  1. 从大麦网架构学到的东西
  2. 要离校了,使用SSM为学校开发后勤报修系统
  3. CSS中隐藏内容的3种方法及属性值
  4. php isapi mysql_windows server 2003以isapi的方式配置php+mysql环境的详细过程
  5. 图片加尺寸php代码,php获取图片尺寸(宽度,高度)_php
  6. bigsur正式版clover引导_【微信首发】macOS Catalina 10.15.6 19G2021 正式版 Clover/OC/PE三分区原版镜像...
  7. php背景色如何填充满,php - 按一定百分比覆盖背景颜色
  8. YOLO系列:YOLO v2深度解析 v1 vs v2
  9. Linux系统彻底卸载MySQL数据库
  10. phpstudy安装及简单使用教程
  11. idea 集成svn
  12. 复盘2020:那些崛起的公司
  13. VNC远程桌面安装配置
  14. mysql压缩修复数据库_压缩修复Access数据库
  15. 2021年高处安装、维护、拆除考试试卷及高处安装、维护、拆除操作证考试
  16. PFC161台湾应广单片机PFC161S08A/PFC161S08B带硬件触摸功能单片机
  17. 面向对象开发期末复习概述(三)
  18. 孟婆汤传说!!!感人至极!
  19. CTR --- FNN原理,及tf2实现
  20. 关于JS下offsetLeft,style.left,以及jquery中的offset().left,css(left)的区别。

热门文章

  1. JAVA I/0流学习(二)
  2. html游戏存档在哪里,steam游戏存档位置在哪里-查找steam游戏存档位置的方法 - 河东软件园...
  3. 第十二届蓝桥杯 2021年省赛真题 (Java 大学C组) 时间显示
  4. 手把手教你!100行代码,用Python做一个“消灭病毒”的小游戏
  5. 基于微信小程序的四六级助手系统-计算机毕业设计
  6. RtAudio与QT
  7. Trac 经验谈之(2)杂谈篇补遗
  8. ajax 不能上传图片,自己动手打造ajax图片上传(网上没有的)
  9. linux命令行使用ppt,linux图形界面与命令行.ppt
  10. 基于STM32开发板实现传感数据采集及wifi上云