小常识2-机器学习数据预处理

机器学习里有一句名言:数据和特征决定了机器学习的上限,而模型和算法的应用只是让我们逼近这个上限。

 

主要包括三部分:

一是获取数据、数据抽样

二是数据探索

三是数据预处理与清洗

 

获取数据,数据抽样

如何保证取样数据的质量?是否在足够范围内有代表性?数据样本取多少合适?如何分类(训练集、测试集、验证集)等等。当要处理或者要分析的数据量比较大可以使用抽样技术:

1.   简单随机抽样

2.   系统抽样

3.   整群抽样

4.   分层抽样

当然,当计算机可以充分使用所有数据时,也不必要进行数据抽样了。

数据质量稽核和特征分析

模型的构建依靠于数据的数量以及质量,所以需先确定数据的状态。比如:

有没有出现从未设想过的数据状态?

其中有没有什么明显的规律和趋势?

各特征之间有什么样的关联性?

解决这些问题的途径就是绘制图表、计算某些特征量,对样本数据集的结构和规律进行分析

数据探索可以从数据质量分析和数据特征分析等两个角度进行展开:

1  数据质量分析:是数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般是指不符合要求,以及不能直接进行相应分析的数据。在数据挖掘中,脏数据包括:

1) 缺失值:数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失,两           者都会造成分析结果的不准确。

2)异常值:异常值是指样本中的个别值,其数据明显偏离其余的观测值。

3)不一致的值:数据不一致性是指数据的矛盾性、不相容性。

4)重复数据及含有特殊符号的数据

2  数据特征分析:对数据进行质量分析以后,可以通过绘制图表、计算某些特征量等手段进行数据的特征分析。主要通过分布分析、对比分析、统计量分析、周期性分析、贡献度分析、相关性分析等角度进行展开。

2.1  分布分析:分布分析能揭示数据的分布特征和分布类型。对于定性数据,可用饼形图和条形图直观的现实分布情况。

2.2  对比分析:对比分析是指把两个相互联系的指标进行比较,从数据量上展开和说明研究对象规模的大小,水平的高低,速度的快慢。在对比分析中,选择合适的对比标准是十分关键的步骤。

2.3  统计量分析:用统计指标对定量数据进行统计描述,常从集中趋势和离中趋势两个方面进行分析。

2.4  周期性分析:周期性分析是探索某个变量是否随着时间变化而呈现出某种周期变化趋势。时间尺度相对较长的周期性趋势有年度周期性趋势、季节性周期性趋势,相对较短的有月度周期性趋势、周度周期性趋势,甚至更短的天、小时周期性趋势。

2.5  贡献度分析:贡献度分析又称帕累托分析,它的原理是帕累托法则又称2/8定律。

2.6  相关性分析:分析连续变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程称为相关分析,

1) 判断两个变量是否具有线性相关关系的最直观的方法是直接绘制散点图;

2)需要同时考察多个变量间的相关关系时,可利用散点图矩阵同时绘制各变量间的散点图,从而快速发现多个变量间的主要相关性;

1)Pearson相关系数:一般用于分析两个连续性变量之间的关系;

2)Spearman秩相关系数:一般用来处理不服从正态分布的变量、分类或等级变量之间的关联性,也称等级相关系数。

3)判定系数:判定系数是相关系数的平方,用r^2表示:用来衡量回归方程对y的解释程度。

如图展示了图表选择情况:

数据预处理和清洗

数据预处理的几个步骤:数据清理,数据集成,数据变换,数据归约等

1、 数据清理:填写缺失的值、光滑噪声数据、识别或删除离群点、解决不一致性。

目标:格式标准化,异常数据清除,错误纠正,重复数据的清除。

2、 数据集成:将多个数据源中的数据结合起来并统一存储,建立数据仓库的过程实际上就是数据集成,具体来讲就是将分散在不同来源的数据有机地整合到一起的一步,例如宽表整合。其中要考虑三个问题:实体识别、数据冗余和数据值冲突检测与处理。

3、 数据变换:通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的形式。其中平滑可以用分箱、聚类和回归来实现。数据泛化过程即概念分层,将低层次的数据提炼到更高一级的概念层次中。规范化又有最大最小规范化、0-值规范化和小数定标规范化。此外还可以构造新的属性来使数据集成。

4、 数据归约:数据挖掘时往往数据量非常大,在少量数据上进行挖掘分析需要很长的时间,数据归约技术可以用来得到数据集的归约表示,它小得多,但仍然接近于保持原数据的完整性,并结果与归约前结果相同或几乎相同。此类技术主要有如下几类:数据方聚集、维规约(检测并删除不相关、弱相关或冗余的属性或维)、数据压缩(小波或傅立叶变换以及主成份分析)等。

小常识2-机器学习数据预处理相关推荐

  1. 机器学习数据预处理之离群值/异常值:图像对比法

    机器学习数据预处理之离群值/异常值:图像对比法 garbage in,garbage out. 异常值是分析师和数据科学家常用的术语,因为它需要密切注意,否则可能导致错误的估计. 简单来说,异常值是一 ...

  2. 机器学习数据预处理之离群值/异常值:箱图法(boxplot method)

    机器学习数据预处理之离群值/异常值:箱图法(boxplot method) garbage in,garbage out. 异常值是分析师和数据科学家常用的术语,因为它需要密切注意,否则可能导致错误的 ...

  3. 机器学习数据预处理之离群值/异常值:MAD法(绝对值差中位数法)+绝对中位差(Median Absolute Deviation,MAD)

    机器学习数据预处理之离群值/异常值:MAD法(绝对值差中位数法)+绝对中位差(Median Absolute Deviation,MAD) garbage in,garbage out. 异常值是分析 ...

  4. 机器学习数据预处理之缺失值:众数(mode)填充

    机器学习数据预处理之缺失值:众数(mode)填充 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例很 ...

  5. 机器学习数据预处理之离群值/异常值:标准差法

    机器学习数据预处理之离群值/异常值:标准差法 garbage in,garbage out. 异常值是分析师和数据科学家常用的术语,因为它需要密切注意,否则可能导致错误的估计. 简单来说,异常值是一个 ...

  6. 机器学习数据预处理之缺失值:预测填充(回归模型填充、分类模型填充)

    机器学习数据预处理之缺失值:预测填充(回归模型填充.分类模型填充) garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题 ...

  7. 机器学习数据预处理之缺失值:插值法填充+ lagrange插值+拉格朗日插值

    机器学习数据预处理之缺失值:插值法填充+ lagrange插值+拉格朗日插值 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常 ...

  8. 机器学习数据预处理之缺失值:插值法填充+多项式插值

    机器学习数据预处理之缺失值:插值法填充+多项式插值 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例 ...

  9. 机器学习数据预处理之缺失值:特征删除

    机器学习数据预处理之缺失值:特征删除 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例很小时,可直接 ...

  10. 机器学习数据预处理之缺失值:样本删除

    机器学习数据预处理之缺失值:样本删除 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例很小时,可直接 ...

最新文章

  1. 常用CSS元素div ul dl dt ol的简单解释
  2. Discuz!NT控件剖析 之 Button [原创: 附源码]
  3. 【北京】线下活动 | Azure SQL Database Managed Instance发布会
  4. 持续更新的Zookeeper知识总结
  5. 真正的高阶特征交叉:xDeepFM与DCN-V2
  6. web之XmlHttpRequest
  7. Unity 3D 游戏引擎
  8. 2013年最具有技术影响力原创图书评选
  9. origin2021软件
  10. 英文信的开头和结尾的客套话有哪些?
  11. Java中引用数据类型有哪些,它们与基本数据类型有什么区别?
  12. PIXI 精灵表和精灵动画
  13. seo优化如何写出高质量的文章
  14. GPS信号的捕获(PMF+FFT方法)
  15. java.lang.NoSuchFieldError: count at org.eclipse.jface.viewers.ColumnViewer$1.mouseDown
  16. Windows 10 右键 在此处打开 CMD
  17. java反斜杠_如何在字符串中使用反斜杠(\)?
  18. AD域环境搭建超详细
  19. Exchange Server 2016 RTM快速部署指南
  20. js 数组根据特定规则排序

热门文章

  1. 从今天起,亚信联创成长笔记Start
  2. 停车场php怎么弄,停车场程序设计
  3. 寄生参数提取——StarRC
  4. 人工神经网络心得体会_神经网络,人工智能这块怎么入门?
  5. CC00020.CloudJenkins——|JenkinsJenkins配置.V10|——|Jenkins.ssh配置|
  6. 【软考笔记】9. 多媒体基础
  7. html 邮件 附件,HTML电子邮件缺少附件
  8. OpenGL中glClear、glColor4f、glClearColor的简单说明
  9. Java类中的字段(Fields):基本概念、分类、功能和特点
  10. 【CVPR 2023】高分辨率异常检测PyramidFlow-训练并推理-附bug调试