一、什么是分桶表

分桶表，比普通表或者分区表有着更为细粒度的数据划分。
举个例子，每天产生的日志可以建立分区表，每个分区在 hdfs 上就是一个目录，这个目录下包含了当天的所有日志记录。
而分桶表，可以进一步对当天的日志按用户划分成多个文件。划分的依据是用户 id 取 hash，然后对分桶数量求余，每个分桶文件在 hdfs 上是一个独立的文件。

二、什么时候可以使用分桶表

分桶表最主要的使用场景是优化大表和大表的 join，其主要原理如下：
（1）如果大表和大表使用 MapReduce 的普通模式，会在 reduce 端 shuffle，那就非常可怕，一个是慢，另一个是容易出异常；
（2）而分桶表将大表的数据划分成一个个小块，分别在 Map 端做 join。
之所以可以这样，是因为分桶表在建表的时候，需要指定分桶的字段，对这个字段值取 hash 后对桶的个数取余数获得一个值，根据这个值将数据放到不同的桶里去。
相同 key 的数据都在一个桶里，在表和表关联的时候就不需要去扫描整个表，只需要去扫描对应桶里的数据即可。
（3）由于不同的数据落到哪个桶是由分桶个数决定的，所以做 Join 的两个分桶表的桶个数必须是相等或者成倍数；
（4）分桶表的每个桶必须要排序，这样可以更高效的做 map join。
这样的 join 称为 SMB map join （Sort Merge Bucket Map Join），核心思想是大表化成小表，分而治之。

三、建立分桶表

分桶表的语法如下：

create table user_order_bucket (id bigint,name string,order_date string,goods string,price double,cnt bigint
)
CLUSTERED BY (name) SORTED BY (name)INTO 5 BUCKETS
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS orc;

和普通建表语句不同的是，使用下面的语句来指定分桶字段和分桶个数：
CLUSTERED BY (name ) INTO 5 BUCKETS

建好之后，需要执行一个 insert into 语句，执行一个 MapReduce 把原始表的数据划分到分桶表的不同桶中。
下面 user_order 是原始表，是 orc 格式，有 250w 数据，只有一个文件，30M。

insert overwrite table user_order_bucket select * from user_order;

执行之后，分桶表的 hdfs 如下：

可以看到每个分桶是一个文件，每个文件大概 5-6M

四、使用分桶表来优化 join

下面的开关需要打开以支持分桶表

set hive.auto.convert.sortmerge.join=true;
set hive.optimize.bucketmapjoin = true;
set hive.optimize.bucketmapjoin.sortedmerge = true;

然后执行一个 join 的 SQL 来验证

select t1.name,t1.order_datefrom user_order_bucket t1 join user_order_bucket2 t2on t1.name = t2.name

首先是未开启以上三个参数的执行计划，这里不贴执行计划了，是正常的 MapReduce；
开启了以上三个参数后，发现是走的 Sorted Merge Bucket Map Join 了。

来执行一下看一下效果，把执行结果写入到另一个临时表中

insert overwrite table user_order_result
select t1.name,t1.order_datefrom user_order_bucket t1 join user_order_bucket2 t2on t1.name = t2.name;

由于本人的集群比较low，一共就 3G内存，6个 cpu
直接跑 MapReduce 的耗时为：
568,967,965 rows affected (590.048 seconds)

使用分桶表 map join 的耗时为：
568,967,965 rows affected (425.187 seconds)

效果不是特别显著，数据量越大，使用分桶表 map join 的效果越好。

Hive 分桶表原理及优化大表 join 实战相关推荐

hive分桶表join_Hive:JOIN及JOIN优化 2015.10.25
1. Join的基本原理大家都知道,Hive会将所有的SQL查询转化为Map/Reduce作业运行于Hadoop集群之上.在这里简要介绍Hive将Join转化为Map/Reduce的基本原理(其它查 ...
大数据学习笔记42：Hive - 分桶表
文章目录一.Hive分桶表 1.分桶操作 2.分桶原理 3.注意事项二.分桶表案例演示 1.创建数据文件courses.txt 2.将数据文件上传到HDFS的/bucket目录 3.基于/buck ...
全方位揭秘！大数据从0到1的完美落地之Hive分桶
分桶的概述为什么要分桶数据分区可能导致有些分区数据过多,有些分区数据极少.分桶是将数据集分解为若干部分(数据文件)的另一种技术. 分区和分桶其实都是对数据更细粒度的管理.当单个分区或者表中的数据越 ...
内存只有100G，要全表扫描一个200G大表，会不会把内存用完？
主机内存只有100G,现在要全表扫描一个200G大表,会不会把DB主机的内存用光? 逻辑备份时,可不就是做整库扫描吗?若这样就会把内存吃光,逻辑备份不是早就挂了? 所以大表全表扫描,看起来应该没问题. ...
大数据之hive：hive分桶表
目录一.回顾分区表二.为什么分桶? 三.分桶表的使用 1.创建一个带分桶定义的表(分桶表) 2.加载数据: 3.对分桶表的查询分桶总结: 实例一.回顾分区表为什么有分区? 随着系统运行时间增 ...
hive分桶表join_Hive知识梳理
以问题作为引导,进行Hive知识梳理,可以复习知识时,可以快速抓住要点提交一条SQL到Hive后,Hive的执行流程是怎么样的? Sql的执行的一个示意图如下 sql 根据这个示意图,我们来描述一下 ...
Hive分桶表插入数据报错“(The ownership on the staging directory /tmp/hadoop-yarn/staging/root/.staging is not”
使用Hive在往分桶表插入数据是报错如下 Job Submission failed with exception 'java.io.IOException(The ownership on the ...
Hive分桶表创建clustered by()
创建分桶表 -- 1 创建分桶表 create table t_us_covid19_bucket(count_date string,county string,state string,fips ...
Hive分桶(bucket)
一什么是桶的概念,和分区有啥区别? 对于每一个表或者分区,可以进一步细分成桶,桶是对数据进行更细粒度的划分.默认时对某一列进行hash,使用hashcode对桶的个数求模取余,确定哪一条记录进入哪 ...

Hive 分桶表原理及优化大表 join 实战

一、什么是分桶表

二、什么时候可以使用分桶表

三、建立分桶表

四、使用分桶表来优化 join

Hive 分桶表原理及优化大表 join 实战相关推荐

最新文章

热门文章