(笔者自己做记录)

1.Hive内外部表的区别
删除表是否影响外部数据
2.Hive如何做到权限管理
hive下可以修改配置后创建用户管理,但是仅仅是为了防止误操而已,如果要真的为了安全操作建议使用
Kerberos
3.Hive的数据倾斜和调优
key分布不均匀造成 去null
调节参数
hive.map.aggr=true
map端聚合,相当于combiner
hive.groupby.skewindata=true
4.Hive文件压缩格式有哪些?压缩效率如何
开启压缩
set hive.exec.compress.output=true;
set mapred.output.compress=true;
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
set io.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
set mapred.output.compression.type=BLOCK;

TextFile(压缩方式Gzip,Bzip2 压缩后不支持split)
SequenceFile-<key,value> (NONE,RECORD,BLOCK!。Record)
RCFile(存储方式:数据按行分块,每块按列存储。结合了行存储和列存储的优点)
ORCFile
(GZIP LZO DefaultCodec snappy)
5.说说对桶表的理解
对数据的细化 取模分开存储数据
6.Hive解析hql转化为MR的执行过程

、SemanticAnalyzer的主要分析过程:调用analyzeInternal函数
1)doPhase1过程:主要是将sql语句中涉及到的各种信息存储起来,存到QB中去,供后续调用
2)getMetaData:这个过程主要是获取元数据信息,主要是sql中涉及到的表到元数据的关联
3)genPlan:这是最重要的过程之一,主要是生成算子树(operator tree)
4)optimize:优化,对算子树进行一些优化操作,例如列剪枝等
5)genMapRedTasks:这个步骤是最关键的步骤,将算子树通过一定的规则生成若干相互以来的MR任务

7.Hive的分组排序(row_number()),组内TopN
8.hive有哪些保存元数据的方式,有什么特点
1、Single User Mode:
默认安装hive,hive是使用derby内存数据库保存hive的元数据,这样是不可以并发调用hive的,
这种模式时hive默认的存储模式,。
2、Multi
User Mode:
通过网络连接到一个数据库中,是最经常使用到的模式。假设使用本机mysql服务器存储元数据。这种存储
方式需要在本地运行一个mysql服务器,并作如下配置(需要将mysql的jar包拷贝到$HIVE_HOME/lib目录下
)。
3、Remote Server Mode:
在服务器端启动一个 MetaStoreServer,客户端利用 Thrift 协议通过 MetaStoreServer 访问元数据
库。

9.hive能建多个库吗
可以
10.hive的底层怎么与数据库交互的。
11.hive实现统计的查询语句以及与mr的区别
12.对于hive你写过哪些UDF函数,作用是干什么的
13.hive与hbase的区别
明显
14.hive中的压缩格式textfile, sequencefile, rcfile, orc的区别
15.hive的工作原理
16.编写hive自定义函数,实现oracle数据库中的addmonths函数功能,然后封装到hive函数库中。

load data local inpath '文件路径' into table t partition(dt="2016-07-25");

hive自定义函数
udf步骤:
1.写一个类继承(org.apache.hadoop.hive.ql.)UDF
2.覆盖方法eturn evaluate(param...)
3.打jar包,提交hive服务器
4.添加到hive资源里面(add jar jar的路径)--->临时的加入的hive的classpath
5.创建一个临时的函数create temparay function functionName as '自定义类的全类名';
6.执行相应的操作
7[可选]、drop 临时函数
网上有例子:根据生日得到属性和星座

转载于:https://www.cnblogs.com/yaohaitao/p/5810710.html

hive 常见面试题相关推荐

  1. Hive常见面试题汇总

    一.Hive架构介绍. 遇到这类问题,可以灵活的去回答,比如可以结合平时使用hive的经验作答,也可以结合下图从数据的读入.解析.元数据的管理,数据的存储等角度回答: 1.Meta Store Met ...

  2. HIVE常见面试题以及实战练习(六)

    1.统计影音视频网站的常规指标,各种 TopN 指标 统计视频观看数 Top10 统计视频类别热度 Top10 统计出视频观看数最高的 20 个视频的所属类别以及类别包含 Top20 视频的个数 统计 ...

  3. 算法面试必备-----数据仓库常见面试题

    算法面试必备-----数据仓库常见面试题 算法面试必备-----数据仓库常见面试题 问题:什么叫数据仓库? 问题:数据仓库建模 为什么需要数据仓库建模? 数据仓库建模方法? 1.ER模型 2.维度建模 ...

  4. 大数据常见面试题----冲!!!

    大数据常见面试题 一.Hadoop生态 1.1 HDFS 1.1.1 hdfs读写流程 1.1.2 NameNode.DataNode的作用 1.3 hive 1.3.1 hive中内部表.外部表的区 ...

  5. mysql关于时间的面试题,mysql时间设置默认值MySQL常见面试题

    1.limit(选出10 到20 条) select * from students order by id limit 9,10; 2.MySQL 会使用索引的操作符号 =,>,=,betwe ...

  6. java类型转换面试题_JavaSE:数据类型之间的转换(附常见面试题)

    数据类型之间的转换 分为以下几种情况: 1)低级到高级的自动类型转换: 2)高级到低级的强制类型转换(会导致溢出或丢失精度): 3)基本类型向类类型转换: 4)基本类型向字符串的转换: 5)类类型向字 ...

  7. Spring常见面试题及答案汇总1000道(春招+秋招+社招)

    Spring面试题以及答案整理[最新版]Spring高级面试题大全(2021版),发现网上很多Spring面试题都没有答案,所以花了很长时间搜集,本套Spring面试题大全,汇总了大量经典的Sprin ...

  8. Java多线程常见面试题及答案汇总1000道(春招+秋招+社招)

    Java多线程面试题以及答案整理[最新版]Java多线程高级面试题大全(2021版),发现网上很多Java多线程面试题都没有答案,所以花了很长时间搜集,本套Java多线程面试题大全,汇总了大量经典的J ...

  9. MySQL常见面试题及答案汇总1000道(春招+秋招+社招)

    MySQL面试题以及答案整理[最新版]MySQL高级面试题大全(2021版),发现网上很多MySQL面试题都没有答案,所以花了很长时间搜集,本套MySQL面试题大全,汇总了大量经典的MySQL程序员面 ...

最新文章

  1. python编程输入标准-揭秘python编程技巧
  2. 推荐算法-聚类-均值偏移聚类(爬山算法)
  3. objective-c 2.0编程语言,Objective-C 2.0程序设计(原书第2版) 中文PDF扫描版[15MB]
  4. mysql_unbuffered_query的_mysql_query与mysql_unbuffered_query的区别
  5. Notepad++ 删除空白行的方法(转)
  6. c语言指针心得6,c语言指针的学习心得
  7. 《netty入门与实战》笔记-02:服务端启动流程
  8. 【李宏毅2020 ML/DL】补充:Structured Learning: Introduction Structured Linear Model
  9. rust能捏人不_不跟风出游的五一假期,武汉人到底能去哪
  10. 如何安装xvidcore
  11. 读《UNIX 编程艺术》
  12. 假如时光倒流,我会这么学习Java
  13. 8086cpu标志寄存器
  14. 三年两转型 打造大宗商品交易大数据生态圈
  15. 多模态逆天图片生成,OpenAI又一力作:DALL·E 2
  16. 比较好的PHP开源项目
  17. camtasia怎么在视频上添加图片
  18. 锐龙R3 2200G和Intel i3-8100选哪个好
  19. ubuntu安装Kubernetes1.20.0
  20. AF Haf tuning <4>

热门文章

  1. 不同项目之间的控件共享
  2. javaweb 中的过滤器 包装器
  3. reflow 和 repaint
  4. H3C S5500核心交换机策略路由调度流量到不同的路由设备
  5. MongoDB【最新版V2.6】- 发行说明
  6. Windows XP Mode
  7. Graph Search就是语义搜索
  8. [原创][连载].基于SOPC的简易数码相框 - Nios II SBTE部分(软件部分) - 从SD卡内读取图片文件,然后显示在TFT-LCD上...
  9. c语言外部中断th0,帮忙看看void int0() interrupt 1 //采用中断0 控制节拍 { TH0=0xd8; TL0=0xef; n--; } 啥意思...
  10. Document,Node,Element,HTMLDocument ,HTMLCollection,HTMLElement,NodeList