编写MapReduce程序，实现WordCount

一、在集群创好文件夹，并上传好相应的文件

输入hdfs dfs直接回车即可出现操作提示

（1）创建目录

hdfs dfs -mkdir /wordcount

(2)创建文件input和output目录

hdfs dfs mkdir /wordcount/input
hdfs dfs mkdir /wordcount/output

(3)上传本地TXT文件到集群

hdfs dfs -put text1.txt /wordcount/input

二、打开eclipse编写MR程序代码

不知道如何接入集群的同学可以参照博客，将eclipse接入hadoop:https://blog.csdn.net/qq_38741971/article/details/88876815

（1）新建map工程

（2）编写Mapper类型

package demo;import java.io.IOException;
import java.util.StringTokenizer;import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;/*** map阶段<KEYIN, VALUEIN, KEYOUT, VALUEOUT> ---> <K1, V1, K2, V2>* 分析:text1.txt*     hello world      --><k1,v1>=<0,"hello world">--><k2,v2>==<"hello",1>,<"world",1>*      hello hadoop     --><k1,v1>=<11,"hello hadoop">--><k2,v2>==<"hello",1>,<"hadoop",1>*/
public class WordMapper extends Mapper<LongWritable,Text,Text,IntWritable> {Text word = new Text();IntWritable one = new IntWritable(1);/*** map函数：处理行，有几行就处理几行,上述案例会调用两次*/@Overrideprotected void map(LongWritable key, Text value,Context context)throws IOException, InterruptedException {//将每行数据按空格分割开StringTokenizer itr = new StringTokenizer(value.toString()," ");while (itr.hasMoreElements()) {word.set(itr.nextToken());context.write(word, one);}}
}

（3）编写Reduce类型

package demo;import java.io.IOException;import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
/*** reduce阶段:<KEYIN, VALUEIN, KEYOUT, VALUEOUT>==<k2,v2,k3,v3>==<Text, IntWritable, Text, IntWritable>* 分析:reduce接收来自map阶段输出数据<k2,v2>=<"hello",1>,进到reduce函数后，数据变成如下内容：*       <"hello",[1,1]>,<"world",[1]>....(shuffle阶段)重点知识**/
public class WordReduce extends Reducer<Text, IntWritable, Text, IntWritable>{IntWritable result = new IntWritable();@Overrideprotected void reduce(Text k2, Iterable<IntWritable> v2,Context context) throws IOException, InterruptedException {int sum = 0;for (IntWritable v : v2) {sum = sum + v.get();}result.set(sum);context.write(k2, result);}}

（4）编写Driver类型

package demo;import java.io.IOException;import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;/*** Driver 驱动类* **/
public class WordCount {public static void main(String[] args) {try {Configuration conf = new Configuration();System.setProperty("HADOOP_USER_NAME", "dodo");Job job = Job.getInstance(conf);job.setJobName("max air");//创建job作业，需要conf,给作业命名"word count"//设置通过一个类的全路径，加载寻找相应的jar包job.setJarByClass(WordCount.class);//设置job所需的mapper类job.setMapperClass(WordMapper.class);//job.setCombinerClass(cls);//设置job所需的reducer类job.setReducerClass(WordReduce.class);//设置job作业的输出类型job.setOutputKeyClass(Text.class);job.setOutputValueClass(IntWritable.class);//为MR的job添加数据输入路径FileInputFormat.addInputPath(job, new Path("hdfs://192.168.81.128:9000/wordcount/input/text*.txt"));//为MR的job设置数据输出路径FileOutputFormat.setOutputPath(job, new Path("hdfs://192.168.81.128:9000/wordcount/output/out"));//提交job到集群，并且等待完成try {System.exit(job.waitForCompletion(true)?1:0);} catch (ClassNotFoundException e) {e.printStackTrace();} catch (InterruptedException e) {e.printStackTrace();}} catch (IOException e) {e.printStackTrace();}}
}

如果想从window本地读取文件，同时跑完MR程序，文件落到window可以如下设置

（5）运行，执行成功出现下图

未成功执行的同学可以参照博客，将eclipse接入hadoop，并解决并且避免一些excption:https://blog.csdn.net/qq_38741971/article/details/88876815

编写MapReduce程序，实现WordCount相关推荐

超详细MapReduce程序实现WordCount案例
一.案例准备 1.首先在本地创建两个文件,即文件A和文件B touch A B 2.在文件A和文件B中分别添加以下内容 A: China is my motherland I love China B ...
如何在Hadoop上编写MapReduce程序
1. 概述 1970年,IBM的研究员E.F.Codd博士在刊物<Communication of the ACM>上发表了一篇名为"A Relational Model of ...
我的第一个MapReduce程序（WordCount）
万事开头难!长途从第一步开始!MapReduce编程也一样! 下面是本人编写的第一个MapReduce程序以及个人的一些理解! 准备条件: 1.安装hadoop 2.工具:eclipse(已经安装了h ...
【Hadoop】伪分布式安装---MapReduce程序运行到YARN上，编写MapReduce程序---HDFS yarn
在我的虚拟机(Linux)上安装的Hadoop是2.7.3版本的,安装过程可以参考这个网站,也可以下载. http://hadoop.apache.org/docs/r2.7.6/hadoop-pro ...
hadoop jar包_Hadoop学习之路(5)Mapreduce程序完成wordcount
程序使用的测试文本数据: Dear RiverDear River Bear Spark Car Dear Car Bear CarDear Car River Car Spark Spark Dea ...
编写MapReduce程序计算平均分
计算某小学学生的期末考试成绩的平均分文章目录一.准备数据 1.学生的三科成绩二.编写程序 1.完整代码 2.启动Hadoop 3.上传3个txt文件 4.在eclipse中运行 5.查看最终结果 ...
编写MapReduce程序，统计每个买家收藏商品数量，实现统计排序功能
实验材料及说明在Ubuntu系统的/学号(每个人用自己的学号)/salesInfo目录下,有买家的购买记录文件Sales,该文件记录了买家的id,购买商品的id以及购买日期,文件为名为Sales.S ...
python hadoop wordcount_Hadoop之wordcount实例-MapReduce程序
实验目的利用搭建好的大数据平台 Hadoop,对 HDFS 中的文本文件进行处理,采用 Hadoop Steaming 方式,使用 Python 语言实现英文单词的统计功能,并输出单词统计结果. 实 ...
Hadoop详解(三)——MapReduce原理和执行过程，远程Debug，Writable序列化接口，MapReduce程序编写
MapReduce概述 MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题. MR由两个阶段组成:Map和Reduce,用户只需要实现map()和Re ...
hadoop的python框架指南_Python之——用Mrjob框架编写Hadoop MapReduce程序(基于Hadoop 2.5.2)...
转载请注明出处:http://blog.csdn.net/l1028386804/article/details/79056120 一.环境准备想了解如何使用原生Python编写MapReduce程序 ...