1,Hive分区。

是指按照数据表的某列或某些列分为多个区,区从形式上可以理解为文件夹,比如我们要收集某个大型网站的日志数据,一个网站每天的日志数据存在同一张表上,由于每天会生成大量的日志,导致数据表的内容巨大,在查询时进行全表扫描耗费的资源非常多。那其实这个情况下,我们可以按照日期对数据表进行分区,不同日期的数据存放在不同的分区,在查询时只要指定分区字段的值就可以直接从该分区查找。

下面从用shell命令操作分区表和从hdfs文件系统查看分区表相结合的方式加深对分区表的认识。

第一,创建分区表并将本地文件中的数据加载到分区表中。

要注意的是:首先,创建分区表的时候,要通过关键字 partitioned by (name  string)声明该表是分区表,并且是按照字段name进行分区,name值一致的所有记录存放在一个分区中,分区属性name的类型是string类型。当然,可以依据多个列进行分区,即对某个分区的数据按照某些列继续分区。

其次,向分区表导入数据的时候,要通过关键字partition(name=“jack”)显示声明数据要导入到表的哪个分区,这里表示要将数据导入到分区为name=jack的分区。

再次,这里要重点强调,所谓分区,这是将满足某些条件的记录打包,做个记号,在查询时提高效率,相当于按文件夹对文件进行分类,文件夹名可类比分区字段。这个分区字段形式上存在于数据表中,在查询时会显示到客户端上,但并不真正在存储在数据表文件中,是所谓伪列。所以,千万不要以为是对属性表中真正存在的列按照属性值的异同进行分区。比如上面的分区依据的列name并不真正的存在于数据表中,是我们为了方便管理添加的一个伪列,这个列的值也是我们人为规定的,不是从数据表中读取之后根据值的不同将其分区。我们并不能按照某个数据表中真实存在的列,如userid来分区。

第二,查看分区表目录:

通过如下命令查看分区表在文件系统中的存储路径,我们会发现分区所依据的列反应在文件路径上,上面安装name=“jack”分区,实际上是创建了一个文件夹名为name=jack,并将该此导入的数据放置该在文件夹下面。

大家会发现,在下图中当我们使用cat命令查看文件内容时,会发现这个伪列也有显示在客户端,这其实只是显示的一种效果而已,后面我们会同hdfs文件系统查看文件内容,会发现文件中其实没有真正存储这列数据。

第三,查看分区数据:

分区的目的就是提高查询效率,查询分区数据的方式就是指定分区名,指定分区名之后就不再全表扫描,直接从指定分区(如name=jack的分区)中查询,从hdfs的角度看就是从相应的文件系统中(如name=jack文件夹下)去查找特定的数据。如下图所示:

第四,查看分区信息:

第五,向分区中插入数据:

在这个操作中,我们就可以验证分区所依据的列其实是一个伪列,如果你要从具有相同结构的分区表中导入数据,会失败。比如两个分区表,都有两个真实的列和一个分区列(伪列),我们要将一个分区表中的数据导入到另一个分区表,会报错。错误信息显示要导入的表只有两列(伪列不记在内,这说明其实数据表文件中只有两列),而源表却有三列(将伪列计算在类),我觉得这是一个bug。

2,分桶。

分桶是相对分区进行更细粒度的划分。分桶将整个数据内容安装某列属性值得hash值进行区分,如要安装name属性分为3个桶,就是对name属性值的hash值对3取摸,按照取模结果对数据分桶。如取模结果为0的数据记录存放到一个文件,取模为1的数据存放到一个文件,取模为2的数据存放到一个文件。

第一,如何分桶:

注意:第一,分桶之前要执行命令hive.enforce.bucketiong=true;

第二,要使用关键字clustered by 指定分区依据的列名,还要指定分为多少桶,这里指定分为3桶。

第三,与分区不同的是,分区依据的不是真实数据表文件中的列,而是我们指定的伪列,但是分桶是依据数据表中真实的列而不是伪列。所以在指定分区依据的列的时候要指定列的类型,因为在数据表文件中不存在这个列,相当于新建一个列。而分桶依据的是表中已经存在的列,这个列的数据类型显然是已知的,所以不需要指定列的类型。

第二,向桶中插入数据:

第三,查看桶信息:

由上图可知分3个桶就是将数据表由一个文件存储分为3个文件存储。

第四,查看分桶数据:

要指定关键字tablesample。

3,分区又分桶。

可以对数据表分区之后继续分桶。

但是分区之后继续分桶,我们在hdfs文件系统上看不出分桶的多个数据表文件,只能看见一个文件,但是能从文件路径上看出分区的信息。

看看分区又分桶的查询结果:

Hive的分区表和分桶表的区别相关推荐

  1. 大数据快速入门(09):永久弄清楚 Hive 分区表和分桶表的区别

    蛋蛋 和 小智 今天又在"打情骂俏",他们今天在谈论分区表和分桶表,走,我们去听听. 这天,蛋蛋去茶水间倒水,他把水杯放在饮水机下面,打开开关,一直盯着墙上的画在看,灵魂仿佛已经飞 ...

  2. 大数据之hive分区表和分桶表的区别

    (一)二者的区别 (1)分区和分桶都是细化数据管理,但是分区表是手动添加区分,由于hive是读模式,所以对添加进分区的数据不做模式校验.分桶表的数据时按住某些分桶字段进行hash散列 相乘的多个文件, ...

  3. hive 修改分桶数 分桶表_hive 学习之路(五)、Hive的分区表与分桶表

    Hive将表划分为分区(partition)表和分桶(bucket)表. 分区可以让数据的部分查询变得更快,也就是说,在加载数据的时候可以指定加载某一部分数据,并不是全量的数据. 分桶表通常是在原始数 ...

  4. 六、Hive中的内部表、外部表、分区表和分桶表

    文章目录 内部表 外部表 分区表 分桶表 在Hive数据仓库中,重要点就是Hive中的四个表.Hive 中的表分为内部表.外部表.分区表和分桶表. 内部表 默认创建的表都是所谓的内部表,有时也被称为管 ...

  5. Hive关于数据表的增删改(内部表、外部表、分区表、分桶表 数据类型、分隔符类型)

    建表 基本语句格式 CREATE [external] TABLE if not exists student #默认建立内部表,加上external则是建立外部表(id int COMMENT'学号 ...

  6. Hive 的概念、应用场景、安装部署及使用、数据存储 、table(内部表)和external table(外部表)、partition(分区表)和bucket(分桶表)

    目录 1.Hive 的概念 2.Hive 的特点 3.Hive 和 RDBMS(关系型数据库) 的对比 4.Hive 和 HBase 的差别 5.Hive 架构 6.Hive安装与使用方法介绍 7.H ...

  7. hive分桶表join_Hive知识梳理

    以问题作为引导,进行Hive知识梳理,可以复习知识时,可以快速抓住要点 提交一条SQL到Hive后,Hive的执行流程是怎么样的? Sql的执行的一个示意图如下 sql 根据这个示意图,我们来描述一下 ...

  8. Hive 分区表 分桶表

    本文目录 1.分区表 Ⅰ.分区表基本操作 1.创建分区表语句 2.分区数据准备 3.装载数据至指定分区 4.数据查询 Ⅰ.全表数据查询 Ⅱ.单个分区数据查询 Ⅲ.多个分区数据查询 5.增加分区 6.删 ...

  9. hive详细笔记(四)-Hive内部表,外部表,分区表,分桶表详解(附带讲解视频)

    本节目录 内部表和外部表 静态分区表 动态分区表 分桶表 抽样查询 1 内部表和外部表 未被external修饰的是内部表(managed table),被external修饰的为外部表(extern ...

最新文章

  1. python基本语法语句-python基本语法
  2. 微信小程序教程 [第五篇]脚本语言(WXS)
  3. Spring学习总结三
  4. java更新无法正常安装_Java无法安装
  5. 一部后现代文学的“奇书”:《烟草经纪人》
  6. 类间关系有很多种 UML
  7. Maximum Subarray(最大连续子序列和)
  8. 集成ueditor后显示html问题处理
  9. SSH与EJB 比较
  10. HijackThis日志细解【简明教程增强版】(六)
  11. Python内置函数(55)——globals
  12. c++用两个队列实现一个栈
  13. 龙格库塔算法原理详解
  14. Python实现爬取下载百度图片
  15. 多变量微积分笔记(2)——多元函数及其微分
  16. 如何修改PDF内容,PDF怎么旋转页面
  17. 某电商类网站服装商品展示页面局部(1+X Web前端开发初级 例题)
  18. 关于软件定时器的一些讨论
  19. 15 个 Python 开源项目,使用 PyQt 做小型桌面应用!
  20. Jackknife test 是什么

热门文章

  1. 网络安全工程师的学习路线
  2. 找不到MSVCP140.dll,解决方案
  3. 华为云-号码隐私保护
  4. 计算机二级公共基础知识教材,《国家计算机二级考试【公共基础知识教材】》.pdf...
  5. android qq 6.2.1,Android/iPhone QQ 6.2 测试版发布
  6. AndroidStudio检测不到华为手机
  7. html九宫格挖正方形代码,使用css伪类before/after实现 正方形三宫格、正方形六宫格、正方形九宫格...
  8. 淮安外国语计算机老师,淮安外国语学校朱颖老师教育感言,因为坚持,一路花开...
  9. 3262. 黑心啤酒厂
  10. 一站式网校平台全套源码 直播/录播/考试 PC网站+APP+公众号+H5