《Mahout算法解析与案例实战》一一2.3　测试安装

本节书摘来自华章计算机《Mahout算法解析与案例实战》一书中的第2章，第2.3节,作者：樊　哲，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.3　测试安装

首先下载测试数据，在浏览器中输入：http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data.html，下载相应的数据。测试数据是由Dr Robert Alcock在1999年利用程序合成的600个样本的控制图数据，每个样本包括60个属性列，一共可以分为6个类，分别为：正常（C）、循环（B）、上升趋势（E）、下降趋势（A）、向上移位（D）、向下移位（F）。图2-5中显示的是每个类别的10个样本数据图。

图2?5　样本数据图
获得上面的测试数据，比如把测试数据下载到/home/mahout/data中，然后使用Hadoop的fs指令把数据上传到HDFS文件系统中，命令如下：
$HADOOP_HOME/bin/hadoop fs –copyFromLocal testdata /home/mahout/data
上传完文件后，可以在HDFS文件系统中进行文件的查看，目录为/user/mahout/testdata，使用Canopy算法进行测试，命令如下：

$HADOOP_HOME/bin/hadoop              ??jar      ???$MAHOUT_HOME/mahout-examples-0.7
-job.jar org.apache.mahout.clustering.syntheticcontrol.canopy.Job

然后在终端就可以看到程序运行信息：程序分别运行了3个Job任务，最后把原始数据分为六类。在HDFS文件系统中的/user/mahout/output文件夹中可以看到输出的文件，但是这些文件都是序列文件，我们使用Mahout的文件转换把序列文件转换为文本文件，这样就能比较清晰地分析输出结果。打开终端，输入命令：

$MAHOUT_HOME/bin/mahout clusterdump –i output/clusters-0-final –p output/clusteredPoints –o /home/mahout/test

参数说明：–i是输入文件路径，即运行Canopy算法产生的中心点文件路径（HDFS文件系统）；–p是运行Canopy算法后把原始数据分类后的数据文件目录（HDFS文件系统）；–o是分类结果的所有文本文件要生成的文件路径（本地文件系统）。clusterdump是有其他参数的，这里只用到这三个就可以了。关于其他参数，直接运行clusterdump（不加任何参数）即可看到参数提示信息。
在本地文件系统中打开文件/home/mahout/test即可看到如下数据文件（部分）：

C-0{n=21 c=[29.552, 33.073, 35.876, 36.375, 35.118, 32.761, 29.566, 26.983,
25.272, 24.967, 25.691, 28.252, 30.994, 33.088, 34.015, 34.349, 32.826, 31.053,
29.116, 27.975, 27.879, 28.103, 28.775, 30.585, 31.049, 31.652, 31.956, 31.278,
30.719, 29.901, 29.545, 30.207, 30.672, 31.366, 31.032, 31.567, 30.610, 30.204,
29.266, 29.753, 29.296, 29.930, 31.207, 31.191, 31.474, 32.154, 31.746, 30.771,
30.250, 29.807, 29.543, 29.397, 29.838, 30.489, 30.705, 31.503, 31.360, 30.827,
30.426, 30.399] r=[0.979, 3.352, 5.334, 5.851, 4.868, 3.000, 3.376, 4.812, 5.159,
5.596, 4.940, 4.793, 5.415, 5.014, 5.155, 4.262, 4.891, 5.475, 6.626, 5.691,
5.240, 4.385, 5.767, 7.035, 6.238, 6.349, 5.587, 6.006, 6.282, 7.483, 6.872,
6.952, 7.374, 8.077, 8.676, 8.636, 8.697, 9.066, 9.835, 10.148, 10.091, 10.175,
9.929, 10.241, 9.824, 10.128, 10.595, 9.799, 10.306, 10.036, 10.069, 10.058,
10.008, 10.335, 10.160, 10.249, 10.222, 10.081, 10.274, 10.145]}
...

查看文件的全部内容，可以看到一共有C-0、C-1、C-2、C-3、C-4、C-5六个类别，且每个类别下面含有属于该类的样本数据。上面所有的步骤都成功运行即可说明Mahout安装正确。