Mahout源码K均值聚类算法分析(3)
之前的关于中心点文件的分析基本是对的,但是在第一篇整体分析的时候没有说如何产生中心点向量文件所以在第二篇写了如何得到,其实在mahout里面有一个自动生成中心点文件的方法,之前漏掉了。现在补上,首先编写下面的debug代码:
package mahout.fansy.test.kmeans;
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.util.ToolRunner;
import org.apache.mahout.clustering.kmeans.KMeansDriver;
import org.apache.mahout.common.distance.ManhattanDistanceMeasure;
public class KmeansTest {/*** @param args* @throws Exception */public static void main(String[] args) throws Exception {test2();}// 间接调用run方法public static void test2() throws Exception{String[] arg={"-fs","fansyPC:9000","-jt","fansyPC:9001","--input","hdfs://fansyPC:9000/user/fansy/output/kmeans-in-transform/part-r-00000","--output","hdfs://fansyPC:9000/user/fansy/output/kmeans-output","-dm","org.apache.mahout.common.distance.ManhattanDistanceMeasure","-c","hdfs://fansyPC:9000/user/fansy/output/kmeans-center","-k","2","-x","4","--tempDir","hdfs://fansyPC:9000/user/fansy/output/kmeans-tmp"};ToolRunner.run(new
Mahout源码K均值聚类算法分析(3)相关推荐
- Mahout源码K均值聚类算分析(2)
首先说下,为什么题目后面会有个"无语篇",因为我觉得今晚这几个钟头太坑爹了.为什么,且听我慢慢道来: 按照昨天的计划,我应该把代码仿造成单机可运行的代码.但是首先我要有输入数据不是 ...
- K均值聚类算法(Kmeans)讲解及源码实现
K均值聚类算法(Kmeans)讲解及源码实现 算法核心 K均值聚类的核心目标是将给定的数据集划分成K个簇,并给出每个数据对应的簇中心点.算法的具体步骤描述如下. 数据预处理,如归一化.离群点处理等. ...
- Python,OpenCV中的K均值聚类——K-Means Cluster
Python,OpenCV中的K均值聚类 1. 效果图 2. 原理 2.1 什么是K均值聚类? 2.2 K均值聚类过程 2.3 cv2.kmeans(z, 2, None, criteria, 10, ...
- Python OpenCV应用K均值聚类进行颜色量化
Python OpenCV应用K均值聚类进行颜色量化 1. 效果图 2. 颜色量化是什么? 3. MiniBatchKMeans & KMeans 4. 源码 参考 在这篇博客文章中,我将向您 ...
- 机器学习作业9 - 自动确定k值的k均值聚类
自动确定k值的k均值聚类 说实话刚刚看到这个作业我是懵逼的.k均值本身不难,可是要自动确定k值,我就不知所措了.于是脑补了无数种方法,最后决定求助度娘.研究了几个小时以后,渐渐有了思路,于是一步步展开 ...
- 机器学习算法与Python实践之k均值聚类(k-means)
机器学习算法与Python实践之(五)k均值聚类(k-means) zouxy09@qq.com http://blog.csdn.net/zouxy09 机器学习算法与Python实践这个系列主要是 ...
- k均值聚类图像分割matlab代码_用K均值聚类法为人类拍摄的首张黑洞照片进行分割...
众所周知,人类最近拍摄了首张黑洞照片.网友们纷纷表示,这明明就是一个甜甜圈嘛!以前以为黑洞是这个世界上最最高冷的存在,而此刻突然现出真身,形象却是如此的人畜无害!不但如此,还勾起了网友的食欲!简直是罪 ...
- k均值聚类算法考试例题_K-均值聚类法实例解析
例: 为了更深入了解我国环境的污染程度状况,现利用 2009 年数据对全国 31 个省.自治区. 直辖市进行聚类分析. 解: 现在要分析我国各个地区的环境污染程度, 案例中选择了各地区 "工 ...
- Udacity机器人软件工程师课程笔记(二十一) - 对点云进行集群可视化 - 聚类的分割 - K-means|K均值聚类, DBSCAN算法
聚类的分割 1.K-均值聚类 (1)K-均值聚类介绍 k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是随机选取K个对象作为初始的聚类中心 ...
- Kmeans++、Mini-Batch Kmeans、Bisecting Kmeans、K中心点(K-Medoids)算法、K众数聚类、核K均值聚类
Kmeans++.Mini-Batch Kmeans.Bisecting Kmeans.K中心点(K-Medoids)算法.K众数聚类.核K均值聚类 目录 Kmeans++.Mini-Batch Km ...
最新文章
- MongoDB3.4安装及卸载
- SAP推出SAP Digital Boardroom
- 如何调试程序的后台作业
- c语言矩阵存储,C语言实现特殊矩阵存储
- 论文阅读课2-Inter-sentence Relation Extraction with Document-level (GCNN,句间关系抽取,ACL2019
- Web 阶段梳理(2019.1.9)
- 政府门户应该怎样建设?——解读中国政府网站绩效评估标准
- Azure Synapse Analytics简介第3部分:数据科学和商业智能
- 【Kafka】《Kafka权威指南》入门
- EXCEL 批量插入指标批注
- 苹果Mac安装win10双系统
- Zema自学--3(实际操作)
- Spring boot实训开发个人博客(二)详情页
- AI创业有风险,起步需谨慎!创业者从准备到失败~
- java写的网络版斗地主_用java实现斗地主
- 打飞机python(完整版)
- 照明基础知识(一)---白炽灯(热辐射光源)发展史工作原理
- 双十一十周年以后 电商行业这些未来趋势和机会不容错过
- URL 重写使用步骤
- mac电脑常用开发软件