155、Spark内核原理进阶之cogroup算子内部实现原理

首先看一段代码

    public static void cogroup2() {// 创建SparkConfSparkConf sparkConf = new SparkConf().setAppName("cogroupJava").setMaster("local");// 创建JavaSparkContextJavaSparkContext javaSparkContext = new JavaSparkContext(sparkConf);// 创建集合List<Tuple2<String, Integer>> words1 = Arrays.asList(new Tuple2<String, Integer>("hello", 1),new Tuple2<String, Integer>("hello", 1),new Tuple2<String, Integer>("world", 1),new Tuple2<String, Integer>("hello", 1),new Tuple2<String, Integer>("you", 1));List<Tuple2<String, Integer>> words2 = Arrays.asList(new Tuple2<String, Integer>("hello", 1),new Tuple2<String, Integer>("world", 1),new Tuple2<String, Integer>("hello", 1),new Tuple2<String, Integer>("you", 1));// 并行化集合，创建初始化RDDJavaPairRDD<String, Integer> words1RDD = javaSparkContext.parallelizePairs(words1);JavaPairRDD<String, Integer> words2RDD = javaSparkContext.parallelizePairs(words2);// 使用cogroup算子关联两个RDD// 相当于是，一个key join上的所有value，都给放到一个Iterable里面去了// cogroup，不太好讲解，希望通过动手编写我们的案例，仔细体会其中的奥妙JavaPairRDD<String, Tuple2<Iterable<Integer>, Iterable<Integer>>> studentScore = words1RDD.cogroup(words2RDD);studentScore.foreach(new VoidFunction<Tuple2<String, Tuple2<Iterable<Integer>, Iterable<Integer>>>>() {@Overridepublic void call(Tuple2<String, Tuple2<Iterable<Integer>, Iterable<Integer>>> t) throws Exception {System.out.println(t._1);System.out.println(t._2._1);System.out.println(t._2._2);System.out.println("===============================");}});// 关闭javaSparkContextjavaSparkContext.close();}

看图

cogroup.png

cogroup算子

基础的算子
在我们大量的实践中，很少遇到说要用cogroup算子的情况
cogroup算子是其他很多算子的基础，比如join

可以把上面那段代码跑一下，其实就是将两个个rdd的key对应的value值分别封装到一个Iterator中去

155、Spark内核原理进阶之cogroup算子内部实现原理相关推荐

Spark内核解析1
Spark通讯架构脚本探究: 概述 Spark 内核泛指 Spark 的核心运行机制,包括 Spark 核心组件的运行机制.Spark 任务调度机制.Spark 内存管理机制.Spark 核心功能的 ...
Spark内核解析之一：内核概述
Spark 内核概述 Spark 内核泛指 Spark 的核心运行机制,包括 Spark 核心组件的运行机制.Spark任务调度机制.Spark 内存管理机制.Spark 核心功能的运行原理等,熟练掌 ...
PySpark | RDD持久化 | 共享变量 | Spark内核调度
文章目录一.RDD持久化 1.RDD的数据是过程数据 2.RDD缓存 2.1 RDD缓存的特点 2.2 cache()与unpersist()实战 3.RDD CheckPoint 3.1 Chec ...
05_大数据技术之Spark内核解析（1.1）
1. Spark 内核概述 Spark内核泛指Spark的核心运行机制,包括Spark核心组件的运行机制.Spark任务调度机制.Spark内存管理机制.Spark核心功能的运行原理等,熟练掌握Spa ...
一、Spark内核之运行机制
Spark内核系列目录一.Spark内核的运行机制二.Spark内核的通讯架构文章目录 Spark内核系列目录前言一.Spark核心组件 1.Driver 2. Executor 3. Sp ...
Spark内核（上）——附：两种Yarn模式源码解析
文章目录一.Spark内核概述 1.1 Spark核心组件回顾 1.1.1 Driver 1.1.2 Executor 1.2 Spark通用运行流程概述二.Spark通信架构概述 2.1 Spa ...
大数据计算平台Spark内核全面解读
1.Spark介绍 Spark是起源于美国加州大学伯克利分校AMPLab的大数据计算平台,在2010年开源,目前是Apache软件基金会的顶级项目.随着Spark在大数据计算领域的暂露头角,越来越多的 ...
Spark内核设计的艺术：架构设计与实现——前言
前言为什么写这本书给这本书写前言,让我想起了两年前给<深入理解Spark:核心思想与源码分析>一书写前言的经历.这让我不禁想起崔护的<题都城南庄>,诗的内容是: 去年今日此 ...
LESSON 12.8 原理进阶 (1)：GBDT数学流程与残差概念辨析
四原理进阶:GBDT的求解流程 1 GBDT的基本数学流程作为当代众多经典算法的基础,GBDT的求解过程可谓十分精妙,它不仅开创性地舍弃了使用原始标签进行训练的方式,同时还极大地简化了Boosti ...

155、Spark内核原理进阶之cogroup算子内部实现原理

155、Spark内核原理进阶之cogroup算子内部实现原理相关推荐

最新文章

热门文章