数据挖掘二：数据整合

教材：数据挖掘基于R语言的实战。

1.数据整合

根据关键字将数据集进行链接，并生成合适的变量放入整合的数据集。

2.处理分类自变量

某些数据挖掘方法能够直接处理分类自变量(定类和定序)，有些只能处理连续自变量，就需要把分类自变量处理成连续自变量。

对于定序自变量，最通常的转换方式是按各类别的顺序将该变量转换为定距自变量。即如果一组类别是：满意，一般满意，不满意，可以直接转换为：1,0，-1。

对于定类自变量，最常用的转换是将该变量转换为一个或多个取值只能为0或1的二值变量，这些转换后的变量称为哑变量。即男女性别可以转化为1代表女性，0代表男性。

对于有多种取值的定类自变量，可以生成一系列哑变量。一般而言，对于有K种取值的定类自变量，我们不能针对每一种取值都生成一个哑变量，会冗余，通常以某一个取值为生成K-1个。

3.处理时间信息

时间自变量无法直接进入建模数据集，转换方法有以下几种：

转换为指示时间是否具有某种特征的哑变量，如是否周末；
转换为季节性信息，如第几季度；
转换为距离某个事件发生的基准时间的时间长度，如距离下一次见到薛的天数等。

4.清除变量

应该被清除的变量类型：

对所有观测值取值都相同的冗余变量
某个变量的取值大部分或全部缺失
变量无法用来预测数据集

5.处理异常值

聚类算法可以用来发现异常值，发现异常值后要查看他们为什么异常，可以进行更正，考虑下面的两种方法：

删除含有异常值的观测，以免对建模产生较大影响，同时明确模型的应用范围
保留含有异常值的观测，但使用不太容易受异常值影响的稳健模型

6.处理极值

对极值进行转换：

7.处理缺失数据

缺失值可以分成两大类：

这个值实际存在但是没有被观测到
这个值实际就不存在

在第一类情况下插补缺失值是有实际意义的，第二类是没有意义的，需要根据实际情况分类讨论。

MICE缺失值插补方法：

常用方法

忽略含有缺失数据的记录
用一个常量或标识符号(如：未知)来取代所有缺失数据值
以全体数据相同属性的均值取代某个记录确实的属性值
以最可能发生的值取代某个记录确实的属性值

另一种插补方法是使用能够直接处理含缺失值的自变量的数据挖掘方法。

8.过抽样和欠抽样

过抽样在构建建模数据集时针对样本量少的类别添加数据。
欠抽样在构建建模数据集时针对样本量多的类别删除数据。

9.降维

自变量过多会给数据挖掘方法带来麻烦，所以选择合适的自变量个数。变量选择是降维的一种简单方法。

9.1变量选择

因变量是二值变量

对于连续自变量：使用两样本t检验考察因变量取一种值(0)时自变量的均值与因变量取另一种值(1)时自变量的均值是否相等，选择检查结果显著(不相等)的变量，即他们显著不相等，说明对预测结果有意义；
对于分类自变量：使用卡方检验考查自变量的取值是否独立于因变量的取值，选择检验效果显著的(不独立)的自变量，独立代表自变量的取值不影响因变量，但因变量是二值变量，我们需要的是有影响的即不独立的自变量。

因变量为分类变量

将取值两两配对，针对每对取值使用t检验考察因变量的均值是否相等，只要任何一对取值结果显著，就可以选择。

因变量是连续变量

将因变量离散化之后，使用离散变量的处理方法或者下面的方法：

计算各连续自变量的与因变量的相关系数，剔除相关系数小或者不显著的变量；
对每个分类自变量，将其取值两两配对，针对每对取值使用t检验考察因变量的均值是否相等，只要任何一对取值结果显著，就可以选择。

总之初期使用简单的方法选择效果显著的变量留下来做后续分析。

9.2主成分分析

针对一组连续的输入变量，主成分分析的目的是构造少数线性组合，以尽可能解释输入变量的数据的变异性。这些线性组合被称为主成分，他们形成的降维数据可以替代输入变量的数据，用于进一步的分析。