【Hive】性能调优

Hive版本: hive-1.1.0-cdh5.14.2

用户提交HiveQL查询后，Hive会把查询语句转换为MapReduce作业。Hive会自动完成整个执行过程，一般情况下，我们并不用知道内部是如何运行的。但当查询遇到性能瓶颈时，就需要对HiveQL进行调优。
EXPLAIN是调优时查看执行计划的工具，执行计划可以清晰的告诉我们查询的stage、map、reduce等阶段的信息。
EXPLAIN的使用非常简单，只需要在正常HiveQL前面加上就可以了。
此时的HiveQL不会真正执行作业，只是基于代价优化器(CBO)生成了最优的执行路径。
例如，使用EXPLAIN查看一条聚合HiveQL的执行计划：

0: jdbc:hive2://node03:10000> explain select avg(age) from youtubevideo_orc;

执行计划分为两部分：

stage依赖(STAGE DEPENDENCIES)
stage详细执行计划(STAGE PLANS)

第一部分：STAGE DEPENDENCIES

这部分展示本次查询分为两个stage：Stage-1，Stage-0.
一般Stage-0是最终给查询用户展示数据用的，如LIMITE操作就会在这部分。
Stage-1是mr程序的执行阶段。

第二部分：STAGE PLANS

1. Stage-1

Stage-1包含了整个查询的大部分处理过程，且会触发一个MapReduce job。
(1) Map阶段
TableScan以youtubevideo_orc表为输入，显示表中有743569行数据；

注意：如果没有对表收集统计信息，743569只是CBO的推测，并非表的真正数据量。
可以使用如下语句收集表的统计信息：
ANALYZE TABLE [db_name.]tablename [PARTITION(partcol1[=val1], partcol2[=val2], …)] – (Note: Fully support qualified table name since Hive 1.2.0, see HIVE-10007.)
COMPUTE STATISTICS
[FOR COLUMNS] – (Note: Hive 0.10.0 and later.)
[CACHE METADATA] – (Note: Hive 2.1.0 and later.)
[NOSCAN];

本次执行的是SELECT查询，查询列是age，列类型为int；
avg是聚合操作，触发了Group By操作，这部分也可以看出执行的是avg(age)，且产生一个中间临时结果_col0。

(2) Reduce阶段
会看到和Map阶段相同的Group By操作，不过这次是作用在map阶段产生的中间临时结果_col0上；
File Output Operator展示了最终输出阶段的详细信息，包括：

compressed 输出是否压缩；
Statistics 输出的统计信息：行数、大小等；
input format 文件输入调用的Java类，显示以文本Text格式输入；
output format 文件输出调用的java类，显示以文本Text格式输出；
serde Hive表使用的Serde类型；

2. Stage-0

Stage-0是查询结果展示阶段，因为我们的查询语句没有LIMIT，所以显示为 -1。

总结

EXPLAIN生成HiveQL的执行计划，是调优的重要工具；
EXPLAIN EXTENDED能生成更加详细的执行计划，读者可以自行比较二者差异；