本节书摘来自华章计算机《Mahout算法解析与案例实战》一书中的第2章,第2.3节,作者:樊 哲,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.3 测试安装

首先下载测试数据,在浏览器中输入:http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data.html,下载相应的数据。测试数据是由Dr Robert Alcock在1999年利用程序合成的600个样本的控制图数据,每个样本包括60个属性列,一共可以分为6个类,分别为:正常(C)、循环(B)、上升趋势(E)、下降趋势(A)、向上移位(D)、向下移位(F)。图2-5中显示的是每个类别的10个样本数据图。

图2?5 样本数据图
获得上面的测试数据,比如把测试数据下载到/home/mahout/data中,然后使用Hadoop的fs指令把数据上传到HDFS文件系统中,命令如下:
$HADOOP_HOME/bin/hadoop fs –copyFromLocal testdata /home/mahout/data
上传完文件后,可以在HDFS文件系统中进行文件的查看,目录为/user/mahout/testdata,使用Canopy算法进行测试,命令如下:

$HADOOP_HOME/bin/hadoop              ??jar      ???$MAHOUT_HOME/mahout-examples-0.7
-job.jar org.apache.mahout.clustering.syntheticcontrol.canopy.Job

然后在终端就可以看到程序运行信息:程序分别运行了3个Job任务,最后把原始数据分为六类。在HDFS文件系统中的/user/mahout/output文件夹中可以看到输出的文件,但是这些文件都是序列文件,我们使用Mahout的文件转换把序列文件转换为文本文件,这样就能比较清晰地分析输出结果。打开终端,输入命令:

$MAHOUT_HOME/bin/mahout clusterdump –i output/clusters-0-final –p output/clusteredPoints –o /home/mahout/test

参数说明:–i是输入文件路径,即运行Canopy算法产生的中心点文件路径(HDFS文件系统);–p是运行Canopy算法后把原始数据分类后的数据文件目录(HDFS文件系统);–o是分类结果的所有文本文件要生成的文件路径(本地文件系统)。clusterdump是有其他参数的,这里只用到这三个就可以了。关于其他参数,直接运行clusterdump(不加任何参数)即可看到参数提示信息。
在本地文件系统中打开文件/home/mahout/test即可看到如下数据文件(部分):

C-0{n=21 c=[29.552, 33.073, 35.876, 36.375, 35.118, 32.761, 29.566, 26.983,
25.272, 24.967, 25.691, 28.252, 30.994, 33.088, 34.015, 34.349, 32.826, 31.053,
29.116, 27.975, 27.879, 28.103, 28.775, 30.585, 31.049, 31.652, 31.956, 31.278,
30.719, 29.901, 29.545, 30.207, 30.672, 31.366, 31.032, 31.567, 30.610, 30.204,
29.266, 29.753, 29.296, 29.930, 31.207, 31.191, 31.474, 32.154, 31.746, 30.771,
30.250, 29.807, 29.543, 29.397, 29.838, 30.489, 30.705, 31.503, 31.360, 30.827,
30.426, 30.399] r=[0.979, 3.352, 5.334, 5.851, 4.868, 3.000, 3.376, 4.812, 5.159,
5.596, 4.940, 4.793, 5.415, 5.014, 5.155, 4.262, 4.891, 5.475, 6.626, 5.691,
5.240, 4.385, 5.767, 7.035, 6.238, 6.349, 5.587, 6.006, 6.282, 7.483, 6.872,
6.952, 7.374, 8.077, 8.676, 8.636, 8.697, 9.066, 9.835, 10.148, 10.091, 10.175,
9.929, 10.241, 9.824, 10.128, 10.595, 9.799, 10.306, 10.036, 10.069, 10.058,
10.008, 10.335, 10.160, 10.249, 10.222, 10.081, 10.274, 10.145]}
...

查看文件的全部内容,可以看到一共有C-0、C-1、C-2、C-3、C-4、C-5六个类别,且每个类别下面含有属于该类的样本数据。上面所有的步骤都成功运行即可说明Mahout安装正确。

《Mahout算法解析与案例实战》一一2.3 测试安装相关推荐

  1. K-means 聚类算法的应用案例实战(含代码和图示)

    1.算法优缺点 优点:容易实现 缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢 使用数据类型:数值型数据 2.算法思想 k-means算法实际上就是通过计算不同样本间的距离来判断他们的相 近关系 ...

  2. python 数据逐个验证_案例实战 | Python 实现 AB 测试中常见的分层抽样与假设检验 (附代码和数据集)...

    在这里插入图片描述 作者 l 萝卜 本文会将原理知识穿插于代码段中,相关代码和数据集可在公众号 " 数据分析与商业实践 " 后台回复 " AB测试 " 获取. ...

  3. spark 随机森林算法案例实战

    随机森林算法 由多个决策树构成的森林,算法分类结果由这些决策树投票得到,决策树在生成的过程当中分别在行方向和列方向上添加随机过程,行方向上构建决策树时采用放回抽样(bootstraping)得到训练数 ...

  4. 随机森林的java算法_spark 随机森林算法案例实战

    随机森林算法 由多个决策树构成的森林,算法分类结果由这些决策树投票得到,决策树在生成的过程当中分别在行方向和列方向上添加随机过程,行方向上构建决策树时采用放回抽样(bootstraping)得到训练数 ...

  5. 数据分析六、案例实战---Apr 算法之公众号关联分析

    案例实战---Apr 算法之公众号关联分析 一.案例背景 二.明确目标 三.数据处理 3.1关于数据清洗,略... 3.2数据整理 四.数据分析 五.数据展现 5.1 绘制多组柱状图 5.2案例展现 ...

  6. Spark 随机森林算法原理、源码分析及案例实战

    图 1. Spark 与其它大数据处理工具的活跃程度比较 回页首 环境要求 操作系统:Linux,本文采用的 Ubuntu 10.04,大家可以根据自己的喜好使用自己擅长的 Linux 发行版 Jav ...

  7. 集成算法-随机森林与案例实战-泰坦尼克获救预测

    集成算法-随机森林 Ensemble learning 目的:让机器学习效果更好,单个不行,群殴走起 Bagging:训练多个分类器取平均 f ( x ) = 1 / M ∑ m = 1 M f m ...

  8. AI之NLP:自然语言处理技术简介(是什么/学什么/怎么用)、常用算法、经典案例之详细攻略(建议收藏)

    AI之NLP:自然语言处理技术简介(是什么/学什么/怎么用).常用算法.经典案例之详细攻略(建议收藏) 目录 NLP是什么? 1.NLP前置技术解析 2.python中NLP技术相关库 3.NLP案例 ...

  9. 逻辑回归模型算法研究与案例分析

    逻辑回归模型算法研究与案例分析 (白宁超 2018年9月6日15: 21:20) 导读:逻辑回归(Logistic regression)即逻辑模型,属于常见的一种分类算法.本文将从理论介绍开始,搞清 ...

最新文章

  1. 二级c语言编程题只要得出答案,计算机二级C语言考试编程题题库答案.docx
  2. [Unity热更新]04.卸载方式
  3. 利用蒙特卡算法仿真二进制双极性基带通信系统
  4. linux ros是什么?(Robot Operating System)
  5. 三十二、VsCode前端的开发工具介绍和使用
  6. web站点放入html页面,HTML
  7. hive币涨幅空间大吗_自动消防水炮只能安装在大空间场所吗
  8. 数据结构二叉树线索化
  9. Chrome 无法抓取跳转请求的解决办法
  10. 实验2-2-3 计算存款利息 (10 分)
  11. mysql max 函数的陷阱
  12. 【计算方法】解线性方程组的四种方法
  13. 信息安全快讯丨一起为亚运健儿加油!
  14. 千千静听皮肤急速合成器
  15. linux code lite编译c,CentOS 6.2编译安装CodeLite 5.3
  16. [GUI] 使用MATLAB从图片中提取曲线数据
  17. turtle之绘制美国队长的盾牌
  18. pandas 选取指定列
  19. c++中sprintf和sprintf_s的区别
  20. BZOJ2121: 字符串游戏

热门文章

  1. 蓝桥杯 ADV-158 算法提高 新建Microsoft Word文档
  2. 【操作系统】死锁-思维导图
  3. hbase Java API 介绍及使用示例
  4. Silverlight 主页与页面用户组件中方法的调用顺序
  5. spring 作用域理解
  6. 【Mysql】利用Mybatis3连接mysql获取datetime类型数据错误
  7. Java9 新特性 详解
  8. 巨杉数据库:金融级数据库未来方向
  9. Shell 双引号和单引号的区别
  10. Linux文件的软链接和硬链接