reduceByKey

例子一

按key求和
val rdd = sc.parallelize(List((“a”,2),(“b”,3),(“a”,3)))

合并key计算
val r1 = rdd.reduceByKey((x,y) => x + y)

输出结果如下

(a,5)
(b,3)

例子二

若有一些spark书和Hadoop的书，要求两本书各自销量的平均值
数据如下

("spark",10)
("spark",20)
("hadoop",4)
("hadoop",10)

先创建一个rdd

val rdd = sc.parallelize(List(("spark",10),("hadoop",4),("hadoop",10),("spark",20)))

分析下数据，要想求平均值，必须算出总的价格，要对不同书进行分组，求每组书的数量

val r2 = rdd.mapValues(x => (x,1))

因为mapValues是对值的操作,不操作key，打印结果如下

(spark,(10,1))
(hadoop,(4,1))
(hadoop,(10,1))
(spark,(20,1))

接着需要按key进行reduce，让key合并

val r3 = r2.reduceByKey((x,y) => (x._1+y._1, x._2+y._2))

变量说明：
当将spark进行reduce后
这里的(x,y) 表示的是(10,1)(20,1)
x._1 表示10， x._2表示1
y._1表示20， y._2表示1
这样通过计算得到的就是如下结果

(spark,(30,2))
(hadoop,(14,2))

接着要对value进行操作，用mapValues()就行啦

val r4 = r3.mapValues(x => x._1 / x._2)

打印结果如下

(spark,15)
(hadoop,7)

reduceByKey相关推荐

深入理解groupByKey、reduceByKey区别——本质就是一个local machine的reduce操作
下面来看看groupByKey和reduceByKey的区别: val conf = new SparkConf().setAppName("GroupAndReduce").se ...
spark rdd reduceByKey示例
reduceByKey ➢ 函数签名 def reduceByKey(func: (V, V) => V): RDD[(K, V)] def reduceByKey(func: (V, V) ...
groupByKey、reduceByKey区别(转)
转载自: https://www.cnblogs.com/bonelee/p/7111395.html spark-shell 下: 代码如下: val words = Array("one ...
reduceByKey和groupByKey区别与用法
2019独角兽企业重金招聘Python工程师标准>>> 在Spar看中,我们知道一切的操作都是基于RDD的.在使用中,RDD有一种非常特殊也是非常实用的format--pair RD ...
java reducebykey_Spark入门（五）--Spark的reduce和reduceByKey
reduce和reduceByKey的区别 reduce和reduceByKey是spark中使用地非常频繁的,在字数统计中,可以看到reduceByKey的经典使用.那么reduce和reduceB ...
spark RDD，reduceByKey vs groupByKey
Spark中有两个类似的api,分别是reduceByKey和groupByKey.这两个的功能类似,但底层实现却有些不同,那么为什么要这样设计呢?我们来从源码的角度分析一下. 先看两者的调用顺序(都 ...
SparkStreaming找不到reduceByKey的解决方法
本文转自http://www.68idc.cn/help/jiabenmake/qita/20150115172034.html,所有权力归原作者所有. 本文中的问题可能是个很低级的问题,但是对我对S ...
Spark Scala当中reduceByKey的用法
[学习笔记] reduceByKey(function) reduceByKey就是对元素为KV对的RDD中Key相同的元素的Value进行function的reduce操作(如前所述),因此,Key ...
【Spark】reduceByKey和GroupByKey
尽可能的使用reduceByKey而不使用GroupByKey 1.区别
解决数据倾斜一：RDD执行reduceByKey或则Spark SQL中使用group by语句导致的数据倾斜
一:概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题--数据倾斜,此时Spark作业的性能会比期望差很多.数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的 ...

reduceByKey

例子一

例子二

reduceByKey相关推荐

最新文章

热门文章