使用scala语言实现wordcount(统计单词出现的次数):

object WordCount {def main(args: Array[String]): Unit = {val lines = List("hadoop hive spark scala","spark hive habase","hive spark java")//数据转换val mappedWords = lines.flatMap(_.split(" ").map(_.trim)).filterNot(_.isEmpty).map((_,1))println("---------------输出分割后的值-----------------")println(mappedWords)//根据数据进行分组val groupedWords: Map[String, List[(String, Int)]] = mappedWords.groupBy(tuple=>tuple._1)//每组进行数据计算println("---------------输出分组后的值-----------------")println(groupedWords)val result = groupedWords.map(tuple=>{//获得Word单词(key)val word = tuple._1//计算该Word对应的数量(value)val count = tuple._2.map(t=>t._2).sum//返回结果(word,count)})println("---------------输出合并后的值-----------------")println(result)println("---------------转换成list的值-----------------")println(result.toList)}
}

使用scala语言实现wordcount程序相关推荐

  1. Scala语言实现WordCount案例以及几个高级函数的使用总结

    实现案例前需要熟悉scala中集合的几个高级函数: 映射:集合.map() 即拿到集合中元素做某些处理,返回当前集合的类型. 扁平化:集合.flatten() 就是提取外层集合中的内层集合中的元素,打 ...

  2. 启动Spark Shell,在Spark Shell中编写WordCount程序,在IDEA中编写WordCount的Maven程序,spark-submit使用spark的jar来做单词统计

    1.启动Spark Shell spark-shell是Spark自带的交互式Shell程序,方便用户进行交互式编程,用户可以在该命令行下用scala编写spark程序.要注意的是要启动Spark-S ...

  3. scala和python的优缺点_基于Spark环境对比Python和Scala语言利弊

    在数据挖掘中,Python和Scala语言都是极受欢迎的,本文总结两种语言在Spark环境各自特点. 本文翻译自  https://www.dezyre.com/article/Scala-vs-Py ...

  4. Apache Spark学习:利用Scala语言开发Spark应用程序

    Spark内核是由Scala语言开发的,因此使用Scala语言开发Spark应用程序是自然而然的事情.如果你对Scala语言还不太熟悉,可以阅读网络教程 A Scala Tutorial for Ja ...

  5. 09_Flink入门案例、word-count程序(java和scala版本)、添加依赖、Flink Streaming和Batch的区别 、在集群上执行程序等

    1.9.Flink入门案例-wordCount 1.9.1.开发工具 1.9.2.编写java版本word-count程序 1.9.2.1.添加Flink Maven依赖 1.9.2.2.编写word ...

  6. scala语言的底层是java实现的_Scala学习笔记一(与Java、Jvm的关系以及程序执行流程分析)...

    一.Scala语言与Java.Jvm的关系分析 Scala语言是马丁奥德斯基接触Java语言后,针对Java语言的特点,将函数式编程语言的特点融合到Java中,由此发明的.Scala语言和Java语言 ...

  7. 使用Scala语言编写Spark应用程序实现数据去重

    使用Scala语言编写Spark应用程序实现数据去重 一.题目需求 二.建立目录结构 (一)创建 sparkapp4 文件夹并切换 (二)创建 data 文件夹(存放A.txt B.txt) (三)创 ...

  8. Spark Scala语言学习系列之完成HelloWorld程序(三种方式)

    三种方式完成HelloWorld程序 分别采用在REPL,命令行(scala脚本)和Eclipse下运行hello world. 一.Scala REPL. windows下安装好scala后,直接C ...

  9. idea写java spark程序,Spark : 在IDEA中用scala编写Spark的WordCount程序并提交运行

    使用IDEA新建maven工程,添加相关依赖: 1.8 1.8 2.11.11 2.3.0 2.7.7 utf-8 org.scala-lang scala-library ${scala.versi ...

最新文章

  1. 我被编程语言PUA了!
  2. CCNP学习笔记(6)
  3. [剑指offer] 跳台阶
  4. 自定义数字软键盘--封装版
  5. 不好好学C++还想做好算法?
  6. PCA降维原理及其代码实现(附加 sklearn PCA用法参数详解)
  7. 自动驾驶——CenterNet(Objects as Points)的学习笔记
  8. BGP通告路由的方法以及BGP静态路由下放
  9. linux网卡时断时续,网卡不稳定的罪魁祸首
  10. 【方向盘】使用IDEA的60+个快捷键分享给你,权为了提效(操作系统、终端篇)
  11. Python 计算 AMR 文件的时长
  12. 什么软件测试固态硬盘坏没坏,固态硬盘容易坏吗 SSD固态硬盘坏掉前有什么征兆【详细介绍】...
  13. Sublime Text 崇高文本 ----最性感的编辑器(程序员必备)
  14. str(n)cpy的注意事项以及memset的简单使用
  15. [Unity Native Container] 自定义Native Container [第 1 部分]:基础知识
  16. Epoll触发事件的类型(转载)
  17. 计算机网络一些相互连接,计算机网络试题全集完整版
  18. 使用OpenCV滑动条写成的简单调色器,实时输出RGB值
  19. VMware ESXi导入苹果虚拟机
  20. python使用正则表达式实现字符串替换

热门文章

  1. SpringBoot 整合Druid数据源SQL监控不显示问题
  2. 梁宁《产品思维》之10抓住做产品的“点”(痛点、爽点和痒点)
  3. 为什么我的win10内存占用过高——开机70+%?
  4. Mysql 隔离级别配置修改
  5. werkzeug源码解析 Request Response
  6. Customization
  7. React Native中View绝对定位absolute居中问题
  8. nginx 常见状态码源码分析
  9. 基于kd树的k近邻算法——KNN
  10. RocketMQ--nameServer启动流程