SparkSQL完成WordCount
0.准备数据person.txt
lisi zhangsan lisi
lisi lisi zhangsan
zhaoliu wangwu kobe
wangwu zhaoliu
lisi xiaoqi
zhangsan kobe
代码演示
package com.xyz.sparksqlimport org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.{Dataset, SparkSession}object WordCount {def main(args: Array[String]): Unit = {//1.创建Sparksession,获取SparkContextval conf: SparkConf = new SparkConf().setAppName("WordCount").setMaster("local[*]")val spark: SparkSession = SparkSession.builder().config(conf).getOrCreate()val sc: SparkContext = spark.sparkContextsc.setLogLevel("WARN")//DS和DF的底层都是RDD,下面的计算过程中底层涉及到他们的相互转换,所以需要导入隐式转换import spark.implicits._//2.读取文件val fileDS: Dataset[String] = spark.read.textFile("F:\\data\\person.txt")//3.对文件数据进行处理val wordDS: Dataset[String] = fileDS.flatMap(url =>url.split(" "))//4.注册表wordDS.createOrReplaceTempView("t_word")//5.书写sql语句val sql:String ="""|select value as word,count(*) as counts| from t_word| group by word| order by counts desc""".stripMargin//6.执行sql语句,查看内容spark.sql(sql).show()//7.关闭资源sc.stop()spark.stop()}
}
SparkSQL完成WordCount相关推荐
- sparkSQL之SQL风格的wordCount
//使用sparkSql完成wordCount object wordCount_SQL {def main(args: Array[String]): Unit = {//1.创建sparkSess ...
- Spark多语言开发
目录 1 多语言开发-说明 2 Java-Spark-掌握 2.1 SparkCore 2.2 SparkStreaming 2.3 SparkSQL 2.4 StructuredStreaming ...
- 大数据面试题6 ---前面有用 后面没用 前面介绍真实情况算法
4.LVS和HAProxy相比,它的缺点是什么? 之前,的确是用LVS进行过MySQL集群的负载均衡,对HAProxy也有过了解,但是将这两者放在眼前进行比较,还真没试着了解过.面试中出现了这么一题, ...
- 2021年大数据Spark(二十七):SparkSQL案例一花式查询和案例二WordCount
目录 案例一:花式查询 案例二:WordCount 基于DSL编程 基于SQL编程 具体演示代码如下: 案例一:花式查询 package cn.itcast.sqlimport org.apache. ...
- 大数据Spark(二十七):SparkSQL案例一花式查询和案例二WordCount
文章目录 案例一:花式查询 案例二:WordCount 基于DSL编程 基于SQL编程
- SparkSQL之DSL风格的wordcount
object WordCount_DSL {def main(args: Array[String]): Unit = {//1.创建sparkSessionval spark: SparkSessi ...
- 2021年大数据Spark(二十九):SparkSQL案例四开窗函数
目录 案例四:开窗函数 概述 介绍 聚合函数和开窗函数 开窗函数分类 聚合开窗函数 排序开窗函数 ROW_NUMBER顺序排序 RANK跳跃排序 DENSE ...
- 2021年大数据Spark(三十二):SparkSQL的External DataSource
目录 External DataSource 数据源与格式 text 数据 json 数据 csv 数据 parquet 数据 jdbc 数据 加载/保存数据-API ...
- 2021年大数据Spark(二十六):SparkSQL数据处理分析
目录 SparkSQL数据处理分析 基于DSL分析 基于SQL分析 第一步.注册为临时视图 第二步.编写SQL,执行分析 SparkSQL数据处理分析 在SparkSQL模块中,将结构化 ...
最新文章
- 来活儿了!赶紧检查下代码里有没有脏话...
- 你的gpu驱动程序不满足_英特尔图形驱动程序现在在Windows/Linux之间共享约60%的代码库...
- php左侧,php左侧补零
- 接口测试到底是什么?如何制造接口数据
- oracle非常量不能用于privot_Oracle 行列转换函数pivot、unpivot的使用(二)
- spring cloud微服务分布式云架构 - Spring Cloud简介
- Filter过滤器的生命周期
- win7系统计算机无最小化,win7纯净版系统任务栏无法显示网页最小化窗口怎么办...
- C语言 文件操作5--文件的常用函数
- windows下docker 挂载数据卷报错 Error response from daemon: user declined directory sharing
- excel导入,用反射匹配字段名
- 台式计算机如何联络无线网,台式电脑怎样设置无线网络
- ATN项目(智能矩阵Atmatrix)是否能做到人工智能界的桥梁,从而改变世界?
- lodop直接打印服务器的文件,C-Lodop云打印服务器
- 银行卡识别技术-移动支付新宠儿
- Latex 插入大括号分类情况
- 计算机网络网速,科普 | 宽带的分类及网速计算
- php源码安全检测,微信域名拦截安全检测API PHP源码
- Windows10开机无限蓝屏(SrtTrail.txt)
- 130个微信小程序源码资源免费领取