spark做两张大表的join操作，mapPartition和重分区算子的使用策略

Spark中做两个大hive表的join操作，先读取过来处理成两个数据量很大的RDD，如果两个RDD直接进行join操作，势必会造成shuffle等导致运行非常缓慢，那么怎么优化呢？方法如下：

首先，对每个大hive表生成RDD进行优化

1. 对RDD进行repartition重分区

先依据Executor数和内存情况估算出对RDD分为多少个partition比较合适，因为一个partition对应一个task，会分发给一个Executor的core去执行运算操作。

所以首先对RDD进行重分区，将数据打散。

2. 采用mapPartition算子，一次性处理一个分区的数据

在这一步进行group by操作，将相同key的value值进行加和

3. reduceByKey算子，对不同的key进行聚合

经过上面的重分区，以及预聚合（group by，func加和），此时reduce端的计算压力就小了很多。

然后，对两个hive表对应的<经步骤一处理后的RDD>，进行重分区操作

这一步是因为如果两个RDD的分区数一致，join的时候就不会出现一个分区的key需要关联另一边多个分区的key的情况，也就是不会出现宽依赖，即不会出现shuffle操作；

这样也可以加快join的速度。

最后，两个RDD进行join即可。

-----------------------以下为mapPartition算子的使用技巧---------------------

因为mapPartition算子里func的函数类型：Iterator[T] => Iterator[U]，也就是需要返回一个迭代器类型

所以代码如下，需要加容器

//先分组，解决数据倾斜问题，
val vertexPairRddGroup1: RDD[(String, String)] = vertexPairRdd.map {case ((srcId, dstId), (_, _)) => (srcId, dstId)
}.mapPartitions(iter => {//对每个分区进行分组，groupbyKeyval list = iter.toListval data = list.groupBy(x => x._1)//分组后的容器val buffer = new ListBuffer[(String, String)]data.foreach(x => {var str = ""x._2.foreach(y => {str = str + "\001" + y._2})if (!"".equals(str)) {val ids = str.trimbuffer.+=((x._1, ids))}})buffer.toIterator
}).reduceByKey((V1, V2) => V1 + "\001" + V2, 5000)

by 大牛王伟大牛

spark做两张大表的join操作，mapPartition和重分区算子的使用策略相关推荐

shell中join链接多个域_shell 如何实现两个表的join操作
shell 如何实现两个表的join操作今天研究的一个问题是:在Shell 脚本中如何实现两个表的 join 操作,这里说的两个表示的其实是两个文件,但是文件是列表的形式,有固定的分割符号,即就相 ...
spark中repartition, coalesce, partitionBy, repartitionAndSortWithinPartitions 四种重分区算子
美图欣赏: 一.背景 spark中一共有四种重分区算子: 1.repartition 2.coalesce 3.partitionBy 4.repartitionAndSortWithinPartit ...
mysql两张大表join优化,MySQL系列6 - join语句的优化
当被驱动表是一张非常大的冷表,且没有命中索引时.我们该如何做优化呢? 表t2的c2字段是没有索引的,且t2表是一张超级大的冷表,join语句如下: select * from t1 straight_ ...
mysql 两张大表关联_MySQL的DropTable影响分析和最佳实践
[0.前言] MySQL上直接Drop张大表,会有什么影响,能否直接写个 drop table ; 或者 truncate table ; 甚至是delete * from? 如果这张表足够大,比如1 ...
mysql 两张大表关联_详解mysql生产环境如何快速有效的删除大表，附实验说明
概述我们很多时候都会去drop一些大表,特别是生产环境做操作时,这里主要提一些注意事项,仅供参考. 01 相关语法 1.删表 DROP TABLE SyntaxDROP [TEMPORARY] TA ...
Hive 两张表数据验证方案、两张大表如何进行数据验证以及剔除部分字段进行数据验证
最近的问题是,宽表在上线之前,需要在测试环境进行试跑,试跑结束后如何跟线上正式数据进行比对呢?简单记录一下设计方案. 1.小表数据验证一些字段比较少的表进行数据验证的方案之前出过 Hive 数据模型 ...
datatable对两个csv的join操作
代码根据key=TransactionID来进行join操作 go.py import datatable as dtfolder_path = './' train_identity = dt.fr ...
如何使用纯Servlet做一个单表的CRUD操作
目录第一步:准备一张数据库表.(sql脚本) 第二步:准备一套HTML页面(项目原型)[前端开发工具使用HBuilder] 第三步:分析我们这个系统包括哪些功能? 第四步:在IDEA当中搭建开发环境 ...
php mysql两个表合并_php操作mysql两个数据库中表的数据同步
题记: 我们开发当中经常会遇到,数据同步.比如将teaching数据库中area表的数据同步到study数据库中zone表中. 备注:这两个数据库不同,数据表名字也不同,但数据表的结构相同.不同表结构 ...

spark做两张大表的join操作，mapPartition和重分区算子的使用策略

-----------------------以下为mapPartition算子的使用技巧---------------------

spark做两张大表的join操作，mapPartition和重分区算子的使用策略相关推荐

最新文章

热门文章