0.准备数据person.txt

lisi zhangsan lisi
lisi lisi zhangsan
zhaoliu wangwu kobe
wangwu zhaoliu
lisi xiaoqi
zhangsan kobe

代码演示

package com.xyz.sparksqlimport org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.{Dataset, SparkSession}object WordCount {def main(args: Array[String]): Unit = {//1.创建Sparksession,获取SparkContextval conf: SparkConf = new SparkConf().setAppName("WordCount").setMaster("local[*]")val spark: SparkSession = SparkSession.builder().config(conf).getOrCreate()val sc: SparkContext = spark.sparkContextsc.setLogLevel("WARN")//DS和DF的底层都是RDD,下面的计算过程中底层涉及到他们的相互转换,所以需要导入隐式转换import spark.implicits._//2.读取文件val fileDS: Dataset[String] = spark.read.textFile("F:\\data\\person.txt")//3.对文件数据进行处理val wordDS: Dataset[String] = fileDS.flatMap(url =>url.split(" "))//4.注册表wordDS.createOrReplaceTempView("t_word")//5.书写sql语句val sql:String ="""|select value as word,count(*) as counts| from t_word| group by word| order by counts desc""".stripMargin//6.执行sql语句,查看内容spark.sql(sql).show()//7.关闭资源sc.stop()spark.stop()}
}

SparkSQL完成WordCount相关推荐

  1. sparkSQL之SQL风格的wordCount

    //使用sparkSql完成wordCount object wordCount_SQL {def main(args: Array[String]): Unit = {//1.创建sparkSess ...

  2. Spark多语言开发

    目录 1 多语言开发-说明 2 Java-Spark-掌握 2.1 SparkCore 2.2 SparkStreaming 2.3 SparkSQL 2.4 StructuredStreaming ...

  3. 大数据面试题6 ---前面有用 后面没用 前面介绍真实情况算法

    4.LVS和HAProxy相比,它的缺点是什么? 之前,的确是用LVS进行过MySQL集群的负载均衡,对HAProxy也有过了解,但是将这两者放在眼前进行比较,还真没试着了解过.面试中出现了这么一题, ...

  4. 2021年大数据Spark(二十七):SparkSQL案例一花式查询和案例二WordCount

    目录 案例一:花式查询 案例二:WordCount 基于DSL编程 基于SQL编程 具体演示代码如下: 案例一:花式查询 package cn.itcast.sqlimport org.apache. ...

  5. 大数据Spark(二十七):SparkSQL案例一花式查询和案例二WordCount

    文章目录 案例一:花式查询 案例二:WordCount 基于DSL编程 基于SQL编程

  6. SparkSQL之DSL风格的wordcount

    object WordCount_DSL {def main(args: Array[String]): Unit = {//1.创建sparkSessionval spark: SparkSessi ...

  7. 2021年大数据Spark(二十九):SparkSQL案例四开窗函数

    目录 案例四:开窗函数 概述 介绍 聚合函数和开窗函数 开窗函数分类 ​​​​​​​聚合开窗函数 排序开窗函数 ROW_NUMBER顺序排序 ​​​​​​​RANK跳跃排序 ​​​​​​​ DENSE ...

  8. 2021年大数据Spark(三十二):SparkSQL的External DataSource

      目录 External DataSource 数据源与格式 text 数据 json 数据 csv 数据 parquet 数据 jdbc 数据 ​​​​​​​加载/保存数据-API ​​​​​​​ ...

  9. 2021年大数据Spark(二十六):SparkSQL数据处理分析

    目录 SparkSQL数据处理分析 基于DSL分析 基于SQL分析 第一步.注册为临时视图 第二步.编写SQL,执行分析 ​​​​​​​SparkSQL数据处理分析 在SparkSQL模块中,将结构化 ...

最新文章

  1. 来活儿了!赶紧检查下代码里有没有脏话...
  2. 你的gpu驱动程序不满足_英特尔图形驱动程序现在在Windows/Linux之间共享约60%的代码库...
  3. php左侧,php左侧补零
  4. 接口测试到底是什么?如何制造接口数据
  5. oracle非常量不能用于privot_Oracle 行列转换函数pivot、unpivot的使用(二)
  6. spring cloud微服务分布式云架构 - Spring Cloud简介
  7. Filter过滤器的生命周期
  8. win7系统计算机无最小化,win7纯净版系统任务栏无法显示网页最小化窗口怎么办...
  9. C语言 文件操作5--文件的常用函数
  10. windows下docker 挂载数据卷报错 Error response from daemon: user declined directory sharing
  11. excel导入,用反射匹配字段名
  12. 台式计算机如何联络无线网,台式电脑怎样设置无线网络
  13. ATN项目(智能矩阵Atmatrix)是否能做到人工智能界的桥梁,从而改变世界?
  14. lodop直接打印服务器的文件,C-Lodop云打印服务器
  15. 银行卡识别技术-移动支付新宠儿
  16. Latex 插入大括号分类情况
  17. 计算机网络网速,科普 | 宽带的分类及网速计算
  18. php源码安全检测,微信域名拦截安全检测API PHP源码
  19. Windows10开机无限蓝屏(SrtTrail.txt)
  20. 130个微信小程序源码资源免费领取

热门文章

  1. Groovy高效编程——‘匕首方法’的使用
  2. Spring的基本原理
  3. PC微信如何获取群成员数量
  4. 声网X智能作业灯 台灯如何成为在线作业辅导新神器?
  5. 电脑系统损坏无法进入桌面如何U盘重装系统?
  6. 大数据测试过程、策略及挑战
  7. 【程序】JSON文件:使用opencv对标注框bbox的单独可视化
  8. 【图灵奖得主】Jeffrey D. Ullman 斯坦福大学
  9. android tv 新游,Android新游推荐 《机器人5号(Robo5)》
  10. 【深度相机系列一】深度相机入门介绍