教材:数据挖掘基于R语言的实战。

1.数据整合

根据关键字将数据集进行链接,并生成合适的变量放入整合的数据集。

2.处理分类自变量

某些数据挖掘方法能够直接处理分类自变量(定类和定序),有些只能处理连续自变量,就需要把分类自变量处理成连续自变量。

对于定序自变量,最通常的转换方式是按各类别的顺序将该变量转换为定距自变量。即如果一组类别是:满意,一般满意,不满意,可以直接转换为:1,0,-1。

对于定类自变量,最常用的转换是将该变量转换为一个或多个取值只能为0或1的二值变量,这些转换后的变量称为哑变量。即男女性别可以转化为1代表女性,0代表男性。

对于有多种取值的定类自变量,可以生成一系列哑变量。一般而言,对于有K种取值的定类自变量,我们不能针对每一种取值都生成一个哑变量,会冗余,通常以某一个取值为生成K-1个。

3.处理时间信息

时间自变量无法直接进入建模数据集,转换方法有以下几种:

  1. 转换为指示时间是否具有某种特征的哑变量,如是否周末;
  2. 转换为季节性信息,如第几季度;
  3. 转换为距离某个事件发生的基准时间的时间长度,如距离下一次见到薛的天数等。

4.清除变量

应该被清除的变量类型:

  • 对所有观测值取值都相同的冗余变量
  • 某个变量的取值大部分或全部缺失
  • 变量无法用来预测数据集

5.处理异常值

聚类算法可以用来发现异常值,发现异常值后要查看他们为什么异常,可以进行更正,考虑下面的两种方法:

  • 删除含有异常值的观测,以免对建模产生较大影响,同时明确模型的应用范围
  • 保留含有异常值的观测,但使用不太容易受异常值影响的稳健模型

6.处理极值

对极值进行转换:

7.处理缺失数据

缺失值可以分成两大类:

  1. 这个值实际存在但是没有被观测到
  2. 这个值实际就不存在

在第一类情况下插补缺失值是有实际意义的,第二类是没有意义的,需要根据实际情况分类讨论。

MICE缺失值插补方法:

常用方法

  • 忽略含有缺失数据的记录
  • 用一个常量或标识符号(如:未知)来取代所有缺失数据值
  • 以全体数据相同属性的均值取代某个记录确实的属性值
  • 以最可能发生的值取代某个记录确实的属性值

另一种插补方法是使用能够直接处理含缺失值的自变量的数据挖掘方法。

8.过抽样和欠抽样

过抽样在构建建模数据集时针对样本量少的类别添加数据。
欠抽样在构建建模数据集时针对样本量多的类别删除数据。

9.降维

自变量过多会给数据挖掘方法带来麻烦,所以选择合适的自变量个数。变量选择是降维的一种简单方法。

9.1变量选择

因变量是二值变量

  1. 对于连续自变量:使用两样本t检验考察因变量取一种值(0)时自变量的均值与因变量取另一种值(1)时自变量的均值是否相等,选择检查结果显著(不相等)的变量,即他们显著不相等,说明对预测结果有意义;
  2. 对于分类自变量:使用卡方检验考查自变量的取值是否独立于因变量的取值,选择检验效果显著的(不独立)的自变量,独立代表自变量的取值不影响因变量,但因变量是二值变量,我们需要的是有影响的即不独立的自变量。

因变量为分类变量

将取值两两配对,针对每对取值使用t检验考察因变量的均值是否相等,只要任何一对取值结果显著,就可以选择。

因变量是连续变量

将因变量离散化之后,使用离散变量的处理方法或者下面的方法:

  1. 计算各连续自变量的与因变量的相关系数,剔除相关系数小或者不显著的变量;
  2. 对每个分类自变量,将其取值两两配对,针对每对取值使用t检验考察因变量的均值是否相等,只要任何一对取值结果显著,就可以选择。

总之初期使用简单的方法选择效果显著的变量留下来做后续分析。

9.2主成分分析

针对一组连续的输入变量,主成分分析的目的是构造少数线性组合,以尽可能解释输入变量的数据的变异性。这些线性组合被称为主成分,他们形成的降维数据可以替代输入变量的数据,用于进一步的分析。

数据挖掘二:数据整合相关推荐

  1. 数据整合基础知识介绍

    数据整合作为一种资源整合的理念和方式,缘起于20世纪90年代初,是随着企业信息化集成需求出现而逐步发展完善.在企业初期信息化建设过程中,由于缺乏信息化建设统一规划,而建立了由不同核心技术构建的信息系统 ...

  2. 数据模型篇:二、阿里巴巴数据整合及管理体系

    阿里巴巴数据整合及管理体系 文章目录 阿里巴巴数据整合及管理体系 一.概述 1.1.定位和价值 1.2.体系架构 二.规范定义 2.1.名词术语解释 2.2.指标体系 指标类型 操作细则 三.模型设计 ...

  3. 数据挖掘:数据预处理相关概念

    数据挖掘:数据预处理相关概念 一.什么是数据预处理? 一般我们得到的数据会存在有缺失值.重复值等,在使用之前需要进行数据预处理.它是一系列对数据操作的统称. 数据预处理没有标准的流程,通常针对不同的任 ...

  4. ​易生信-宏基因组积微学术论坛:基于大数据整合准确预测土壤的枯萎病发生...

    博彩众家之长,积微成就突破.为促进我国宏基因组研究领域的学术交流和技术分享,推动微生物组领域的发展,"宏基因组"公众号联合国内外优秀人才组织"易生信-宏基因组 积微学术论 ...

  5. 单细胞转录组数据整合分析专题研讨会(2019.11)

    2019年10月9日,单细胞转录组再等Nature.题为Decoding human fetal liver haematopoiesis的研究,对受孕后4周至17周的人胚胎肝脏.卵黄囊.肾脏和皮肤组 ...

  6. 生物系统和疾病的多组学数据整合考虑和研究设计

    生物系统和疾病的多组学数据整合考虑和研究设计 1 生物系统 生物系统--组成 生物系统很复杂,具有许多调节功能,例如DNA,mRNA,蛋白质,代谢物,以及表观遗传功能(例如DNA甲基化和组蛋白翻译后修 ...

  7. 即时聊天IM之二 openfire 整合现有系统用户

    合肥程序员群:49313181.    合肥实名程序员群:128131462 (不愿透露姓名和信息者勿加入) Q  Q:408365330     E-Mail:egojit@qq.com  综述: ...

  8. 2015国内征信机构大数据整合能力对比

    自2001年起,大陆地区现代企业征信业进入在竞争中发展的阶段,信用问题开始得到社会各界的广泛关注,许多政府和民间投资的企业征信机构携带大量资本如雨后春笋般出现. 随着企业征信行业环境不断改善,信息透明 ...

  9. 积微论坛第一期 - 基于大数据整合预测土壤枯萎病的发生 (文稿分享)

    生物信息学习的正确姿势 NGS系列文章包括NGS基础.高颜值在线绘图和分析.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流 ...

最新文章

  1. Oracle常用语句:分页查询语句的写法
  2. 贷款时,如何评估借款人的还款意愿
  3. jolokia_使用WildFly 9和Jolokia监视DevOps样式
  4. mysql锁的基本类型_Mysql的锁
  5. 又错过了暴富的机会!亚马逊AWS突发Bug,比特币现史诗级捡漏机会?
  6. 16. Window close() 方法
  7. Android源码学习之环境搭建(Ubuntu下载Android源码)
  8. CO_P0(logisim)
  9. Linux下挂载大容量存储
  10. android onupgrade调用,Android Sqlite中常见的对于onUpgrade的处理方法
  11. multipartfile转excel_MultipartFile解析Excel
  12. cfd计算机辅助技术,CFD仿真在生物医学领域拯救生命
  13. Ubuntu操作系统安装
  14. 软件设计师-设计模式
  15. 向SVN提交项目时显示提交成功却没有上传
  16. 联想创投入围清科TOP VC 看好六大投资新领域
  17. Linux保护ssh的三把锁
  18. 合肥科大讯飞-AI研究算法工程师(视觉感知) 招聘贴
  19. 【备战十四届蓝桥杯 | 开篇】如何高效备战蓝桥杯
  20. 常用的post、get工具说明

热门文章

  1. 给计算机专业大学生的忠告
  2. wxPython 2.8 XRC Resource Editor Bug
  3. 一篇文章看懂select_poll_epoll
  4. python接入讯代理_python实现简单的TCP代理服务器
  5. 大数据测试-数据质量模型
  6. 小程序毕设作品之微信预约订座小程序毕业设计(7)中期检查报告
  7. UPS电路图, 山特UPS电路图
  8. 2020年胺基化工艺考试内容及胺基化工艺考试平台
  9. 深度linux默认登录密码,不要询问Deepin系统的默认root密码了,以下是网友科普的知识...
  10. 使用正则在一串字符串中找到数字