2019独角兽企业重金招聘Python工程师标准>>>

Mahout实战
Mahout是apache Soft Foundation旗下的一个开源项目
提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷的创建智能应用程序
Mahout的许多实现,包括聚类,分类,推荐过滤,频繁子项目挖掘,此外,通过使用Apache Hadoop库
Mahout可以有效的扩展到云中
运行Mahout自带的kmeans算法同时验证Mahout是否能够正常运行
准备测试数据下载文件
http://kdd.ics.uci.edu/databases/synthetic_control/synthetic_control.data
把文件放在$MAHOUT_HOME目录下synthetic_con
23 17
[hdfs@cloudra ~]$ hadoop fs -mkdir  testdata
[hdfs@cloudra root]$ hadoop fs -mkdir  /output
[hdfs@cloudra ~]$ hadoop fs -put synthetic_control.data testdata
DEPRECATED: Use of this script to execute hdfs command is deprecated.
Instead use the hdfs command for it.
You have new mail in /var/spool/mail/root
/usr/java/default
export JAVA_HOME=/usr/java/jdk1.7.0_79
hdfs@cloudra ~]$ mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
或者 jar mahout-distribution-0.7/mahout-examples-0.7-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job

[root@localhost mahout-distribution-0.9]# hadoop fs -mkdir /user/root/testdata
16/11/23 05:28:02 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
mkdir: `/user/root/testdata': No such file or directory
[root@localhost mahout-distribution-0.9]# hadoop fs -mkdir -p /user/root/testdata
16/11/23 05:28:15 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
[root@localhost mahout-distribution-0.9]# ls
bin       lib                      mahout-examples-0.9.jar      NOTICE.txt
conf      LICENSE.txt              mahout-examples-0.9-job.jar  README.txt
docs      mahout-core-0.9.jar      mahout-integration-0.9.jar
examples  mahout-core-0.9-job.jar  mahout-math-0.9.jar
[root@localhost mahout-distribution-0.9]# cd ..
[root@localhost soft]# cd ..
[root@localhost ~]# cd -
/root/soft
[root@localhost soft]# ls
data  hadoop-2.6.0  jdk1.7.0_79  mahout-distribution-0.9
[root@localhost soft]# cd data
[root@localhost data]# ls
synthetic_control.data
[root@localhost data]# hadoop fs -put /user/root/testdata
16/11/23 05:29:15 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
put: `/user/root/testdata': No such file or directory
[root@localhost data]# hadoop fs -put synthetic_control.data  /user/root/testdata
16/11/23 05:29:39 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
[root@localhost data]# ls
synthetic_control.data
[root@localhost data]# cd ..
[root@localhost soft]# ls
data  hadoop-2.6.0  jdk1.7.0_79  mahout-distribution-0.9
[root@localhost soft]# cd mahout-distribution-0.9/
[root@localhost mahout-distribution-0.9]# ls
bin       lib                      mahout-examples-0.9.jar      NOTICE.txt
conf      LICENSE.txt              mahout-examples-0.9-job.jar  README.txt
docs      mahout-core-0.9.jar      mahout-integration-0.9.jar
examples  mahout-core-0.9-job.jar  mahout-math-0.9.jar
[root@localhost mahout-distribution-0.9]# hadoop jar mahout-examples-0.9-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
16/11/23 05:30:30 INFO kmeans.Job: Running with default arguments
16/11/23 05:30:35 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
16/11/23 05:30:40 INFO kmeans.Job: Preparing Input
16/11/23 05:30:41 INFO client.RMProxy: Connecting to ResourceManager at hadoop02/127.0.0.1:8032
16/11/23 05:30:42 WARN mapreduce.JobSubmitter: Hadoop command-line option parsing not performed. Implement the Tool interface and execute your application with ToolRunner to remedy this.
16/11/23 05:30:46 INFO input.FileInputFormat: Total input paths to process : 1
16/11/23 05:30:46 INFO mapreduce.JobSubmitter: number of splits:1
16/11/23 05:30:47 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1479907436985_0002
16/11/23 05:30:49 INFO impl.YarnClientImpl: Submitted application application_1479907436985_0002
16/11/23 05:30:49 INFO mapreduce.Job: The url to track the job: http://localhost:8088/proxy/application_1479907436985_0002/
16/11/23 05:30:49 INFO mapreduce.Job: Running job: job_1479907436985_0002
16/11/23 05:31:40 INFO mapreduce.Job: Job job_1479907436985_0002 running in uber mode : false
16/11/23 05:31:40 INFO mapreduce.Job:  map 0% reduce 0%
mahout seqdumper将SequenceFile文件转成可读的文本形式对应的源文件是org.apache.mahout.utils.SequenceFileDumper.java将向量文件转化成
可读的文本形式,对应的源文件是org.apache.mahout.utils.vectors.VectorDumper.java
mahout clusterdump分析最后聚类的输出结果,对应的源文件是org.apache.mahout.utils.clustering.ClusterDumper.java
[root@localhost bin]# mahout seqdumper -s output/clusters-5/part-r-00000 -o ~/txt.data
mahout clusterdump --seqFileDir /user/root/output/clusters-10-final --pointsDir /user/root/output/clusteredPoints --output $MAHOUT_HOME/examples/output/clusteranalyze.txt
Mahout包含三大块聚类,协同过滤(推荐item user),分类算法(贝叶斯)
聚类又称为群分析,他是研究(样品或指标)分类的一种统计算法,同时也是数据挖掘的一个重要算法
聚类分析是一个度量的向量,或者是多维空间的一个点
聚类分析已相似性为基础,在一个聚类中模式之间比不在同一聚类的模式之间更有相似性
聚类的用途很广泛,
列入在商业上,聚类可以帮助市场分析人员从消费数据库中区分出不同的消费群体来,并且概括出每一类消费者的消费模式或者说习惯
聚类算法Canopy算法(canopy clustering) K均值算法(k means cluster) 模糊K均值(fuzzy kmeans),EM聚类(期望最大化聚类 EXPECTION MAXMIZATION)
均值漂移聚类(Mean shirt clustering) 层次聚类(hieratical cluster)狄克磊过程聚类(oirichiet process clustering)
latent dinchiet allocation LOA聚类
分类 就是按照某种标准给对象贴标签 ,再根据标签来区分归类
分类是事先定义好类别,类别数不变 比如大豆和绿豆 区分值颜色大小
算法 逻辑回归 (logistic regression) 贝叶斯(Bayesian)支持向量机(Support vector machine)感知器算法
(perceptron and winnow)神经网络(Neural network)随机森林(random forests)
有限玻尔兹曼机(restric boltzman machine)
协同过滤
推荐系统(商品推荐,用户推荐)
推荐/协同过滤   Non-distributed recommenders/(Distribute Recommenders) TasteUserCF(item cf,slotone)/item cf
向量相似度计算 RowSimilantyJob /VectorDistanceJob  计算列间相似度/计算向量间距离
非MR算法  Hidden markov models 马尔科夫模型
集合方法扩展 collocations 扩展了java 的collection类
关联规则挖掘 parallel Fp growth algorithim并行FP growth算法
回归 Locally Weighted Linear Regression 局部加权线性回归
降维 stochastic singular value DeCOMPOSITION奇异值分解/pricipal components Analysis主成分分析/independent components analysis独立成分分析/
gaussian discriminative analysis高斯判别分析
进化算法 并行化watchmake框架

转载于:https://my.oschina.net/goudingcheng/blog/794730

mahout kmeans相关推荐

  1. Mahout kmeans聚类

    Mahout  K-means聚类 一.Kmeans 聚类原理 K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一.K-means算法的基本思想是:以空间中k个点为中心进行聚 ...

  2. Mahout K-means聚类

    在实际工作中,我们很少有完整的时间段能够仔细研透一门学问.因此针对一门新学问.一套新知识.一种新方法,我们追求的是,先把它用起来,让其有实际的产出,尔后如有必要再慢慢研究其内在机理,以逐渐达到熟练自如 ...

  3. (转)Mahout Kmeans Clustering 学习

    一.Mahout命令使用 合成控制的数据集 synthetic_control.data 可以从 此处下载,总共由600行X60列double型的数据组成, 意思是有600个元组,每个元组是一个时间序 ...

  4. Mahout使用K-Means进行中文文本聚类

    一.数据准备 版本说明 使用的Mahout版本为apache-mahout-distribution-0.10.1 使用的Hadoop版本为hadoop-2.3.0-cdh5.0.0 分词 使用爬虫对 ...

  5. Apache Mahout:适合所有人的可扩展机器学习框架

    原文链接:http://blog.csdn.net/gdp5211314/article/details/7173505 简介: Apache Mahout 专家 Grant Ingersoll 引领 ...

  6. java 调用 mahout_(转)Mahout使用入门

    一.简介 Mahout 是 Apache Software Foundation(ASF)旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序 ...

  7. mahout fpg

    2019独角兽企业重金招聘Python工程师标准>>> 下载http://mirrors.cnnic.cn/apache/mahout/0.11.0/apache-mahout-di ...

  8. mahout LDA

    什么是Mahout? " Apache Mahout™ project's goal is to build a scalable machine learning library &quo ...

  9. java hadoop mahout_一个基于Mahout与hadoop的聚类搭建

    mahout是基于Hadoop的数据挖掘工具,因为有了hadoop,所以进行海量数据的挖掘工作显得更为简单.但是因为算法需要支持M/R,所以不是所有常用的数据挖掘算法都会支持.这篇文章会告诉你,如何使 ...

最新文章

  1. 2021年大数据ELK(二十七):数据可视化(Visualize)
  2. c#设置软件开机自动运行,修改注册表
  3. fedora在此处打开终端
  4. IDEA解决sun.misc.BASE64Encoder找不到jar包的解决方法
  5. java jdk安装教程win10_win10系统安装java的详细步骤(图文)
  6. Intelj IDEA的pom.xml显示错误can not reconnect
  7. MongoDB复制集安全认证
  8. 决策树和基于决策树的集成方法(DT,RF,GBDT,XGB)复习总结
  9. 电压源和电流的关联参考方向_基于动态随机均衡的电流舵数模转换器设计
  10. oracle发生20001,ORA-20001错误一例
  11. Jar包常见的反编译工具介绍与使用
  12. xp oracle10g安装图解,虚拟机xp系统中Oracle 10g的安装
  13. 一张图说明softmax layer是什么
  14. 世界棒球经典赛:从WBC走进中国棒球·棒球1号位
  15. thinkajax入门------验证ThinkAjax.send 、ajaxReturn
  16. java制作闪星星_【治水】怎么用java画各种星星组成的图形
  17. Linux IO操作——RIO包
  18. 两年多里自己都干了什么?
  19. 微信小程序之会议预约管理系统(含源码+论文+答辩PPT等)
  20. 大众点评超详细爬虫系列2

热门文章

  1. 分布式锁的三种实现方式_基于 redis 的分布式锁实现
  2. jquery text方法html,jquery text(),html()方法的区别
  3. Java成员变量与类变量_Java基础随记2-成员变量和类变量的区别
  4. c2054未定义基类_c++ - 错误C2504:基类未定义 - 堆栈内存溢出
  5. python潜力开源项目_比较了1000多个Python开源项目,精选出这34个
  6. 服务器自动post,jquery ajax $.post自动变GET的解决方式(for CI)
  7. resin php,resin竟然开始支持PHP
  8. java vuser脚本_loadrunner12中JavaVuser脚本的编写
  9. order by总结
  10. 基于安卓的考试系统_基于安卓11定制!华为最新手机系统曝光:体验堪比苹果iOS!...