目录

  • 一、数据清理
    • 1 处理缺失值
    • 2 噪声数据
  • 二、数据集成
    • 1 实体识别
    • 2 冗余和相关分析
    • 3 数值冲突的检测与处理
  • 三、数据变换
    • 1 数据规范化
    • 2 数据离散化
    • 3 概念分层

数据预处理包括多种方法,诸如数据清理、数据集成、数据变换等。

一、数据清理

数据清理主要是处理缺失数据、噪声数据等。

1 处理缺失值

处理缺失值常用方法:

  • 删除数据:根据缺失情况,按行删除或者按列删除
  • 度量填补缺失值:可以根据数据属性,采用均值、中位数、众数等中心度量值来填补缺失数据
  • 预测填补缺失值:可以将缺失属性作为因变量,建立分类或回归模型,对缺失值进行建模填补

2 噪声数据

对于噪声数据主要通过光滑的操作,可以通过:

  • 分箱操作。其主要思想为每一个数据与它的“近邻”数据应该是相似的,因此将数据用其近邻(“箱”或“桶”)替代,这样既可以光滑有序数据值,还能在一定程度上保持数据的独有特点。
  • 回归处理。通过一个映像或函数拟合多个属性数据,从而达到光滑数据的效果。
  • 离群点分析。聚类可以将相似的值归为同一“簇”,因此主要使用聚类等技术来检测离群点。

二、数据集成

需要的数据往往分布在不同的数据源中,数据集成就是将多个数据源合并存放在一个一致的数据存储(如数据仓库)中的过程。在实际应用中,数据集成解决 3类问题:实体识别、冗余和相关分析,以及数值冲突的检测与处理

1 实体识别

实体识别是指从不同数据源识别现实世界的实体,它的任务是统一不同源数据的矛盾之处。

2 冗余和相关分析

可以通过可视化、相关性分析等方法,来删除冗余数据

3 数值冲突的检测与处理

对于现实世界的同一实体,由于表达方式、尺度标准或编码的不同常导致元数据的巨大差异。因此要对数据进行尺度标准或编码的统一。

三、数据变换

常用的数据变换操作有:数据规范化、数据里散化、概念分层。

1 数据规范化

数据规范化的目的是将数据按比例缩放,使得属性之间的权值适合数据挖掘。
常见的数据规范化方法包括:

  • 最小-最大规范化
  • z-score分数规范化
  • 小数定标规范化等。

2 数据离散化

数据离散化是将数值属性的原始值用区间标签或概念标签替换的过程,它可以将连续属性值离散化。

3 概念分层

概念分层的主要思想是将低层概念的集合映射到高层概念的集合。


实际操作不一一细化了,相对来说大部分操作都是python学习过程中的基础练习。

数据预处理常用方法总结相关推荐

  1. 数据预处理常用方法流程

    文章目录 数据读取和选择 缺失数据 找出缺失数据 处理缺失数据 丢弃观察值 丢弃特征 填充缺失数据 数值变量 分类变量 替换缺失值 异常值 如何找出异常值 数值变量 直方图 箱形图 分类变量 条形图 ...

  2. 机器学习 | 基本概念与数据预处理和特征工程

    文章目录 一.机器学习的基本概念 二.降维 1.模块preprocessing:几乎包含数据预处理的所有内容 (1)模块Impute:填补缺失值专用 (2)模块feature_selection:包含 ...

  3. python 归一化_一文学会用python进行数据预处理

    怎样用Python进行数据转换和归一化 1.概述 ​ 实际的数据库极易受到噪声.缺失值和不一致数据的侵扰,因为数据库太大,并且多半来自多个异种数据源,低质量的数据将会导致低质量的数据分析结果,大量的数 ...

  4. Stanford UFLDL教程 数据预处理

    数据预处理 Contents [hide] 1概要 2数据归一化 2.1简单缩放 2.2逐样本均值消减 2.3特征标准化 3PCA/ZCA白化 3.1基于重构的模型 3.2基于正交化ICA的模型 4大 ...

  5. 机器学习之数据预处理

    在sklearn之数据分析中总结了数据分析常用方法,接下来对数据预处理进行总结 当我们拿到数据集后一般需要进行以下步骤: (1)明确有数据集有多少特征,哪些是连续的,哪些是类别的 (2)检查有没有缺失 ...

  6. 特征工程之数据预处理(上)

    机器学习入门系列(2)–如何构建一个完整的机器学习项目,第三篇! 该系列的前两篇文章: 机器学习入门系列(2)–如何构建一个完整的机器学习项目(一) 机器学习数据集的获取和测试集的构建方法 分别介绍了 ...

  7. 属性子集选择的基本启发方法_一文看懂数据预处理最重要的3种思想和方法

    导读:本文我们考虑应当采用哪些预处理步骤,让数据更加适合挖掘.数据预处理是一个广泛的领域,包含大量以复杂的方式相关联的不同策略和技术.我们将讨论一些最重要的思想和方法,并试图指出它们之间的相互联系. ...

  8. 一文看懂数据预处理最重要的3种思想和方法

    导读:本文我们考虑应当采用哪些预处理步骤,让数据更加适合挖掘.数据预处理是一个广泛的领域,包含大量以复杂的方式相关联的不同策略和技术.我们将讨论一些最重要的思想和方法,并试图指出它们之间的相互联系. ...

  9. 关于数据预处理的7个重要知识点,全在这儿了!

    导读:今天这篇文章是「大数据」内容合伙人周萝卜关于<Python数据分析与数据化运营>的一篇读书笔记.在大数据公众号后台对话框回复合伙人,免费读书.与50万「大数据」同行分享你的洞见. 作 ...

最新文章

  1. 在PC机上运行的linux系统是,Docker Desktop如何在Windows计算机上运行linux容...
  2. js获取微信状态栏高度_人人商城打包app教程 方法 hbuilder打包支持支付宝微信原生支付...
  3. 如果通过当前元素知道父元素、同级元素
  4. golang协程介绍和理解
  5. 一图看懂hadoop分布式文件存储系统HDFS工作原理
  6. 飞鸽传书的一个美丽的神话
  7. linux c 程序崩溃日志,C:Linux:调用write()时TCP / IP程序崩溃
  8. 方法参数关键字:params、ref及out
  9. L2-021 点赞狂魔-PAT团体程序设计天梯赛GPLT
  10. 什么是计算机图形学?
  11. CF 1383/1384
  12. sqlite循环插入时使用stmt需要reset,否则会插入出错
  13. ESD 静电保护原理和设计
  14. antd vue表单验证_解决antd 表单设置默认值initialValue后验证失效的问题
  15. android 浏览器 遥控器 光标,论Android智能电视盒子必装应用之——飞视浏览器
  16. Windows装机方案
  17. H3C HCL模拟器 MPLS ipv4/ipv6双栈实验
  18. win10拒绝访问,需要安全选项卡如何操作?
  19. IDEA创建maven项目没有src/main/java目录问题解决
  20. 如何解决服务器延迟高的问题?

热门文章

  1. android 获取短信铃声,如何获取Android中的当前铃声?
  2. 千亿母婴辅食赛道崛起,建立和完善行业标准迫在眉睫
  3. 找出字串在文本中出现或未出现的情况
  4. python银行定期存款利率_银行员工说漏嘴:一年之中,这些时间段去存钱,银行给的利息最高...
  5. 关于打印(c#套打...)
  6. mac m1配置frpc内网穿透
  7. AspectJ中的org.aspectj.lang.JoinPoint接口的主要方法及使用
  8. topaz全家桶_看看你还缺哪个?摄影后期必备插件全家桶齐了!AI视频无损放大...
  9. 【架构设计】读写分离、动静分离
  10. 微信朋友圈发动态功能流程图案例