hive元数据库表分析及操作
在安装Hive时,需要在hive-site.xml文件中配置元数据相关信息。与传统关系型数据库不同的是,hive表中的数据都是保存的HDFS上,也就是说hive中的数据库、表、分区等都可以在HDFS找到对应的文件。这里说到的元数据可以理解成hive中用于保存数据库、表、分区或者表字段等基本属性,以及这些属性与HDFS文件对应关系的一个映射。
这些映射关系比较常见的一个场景是保存在mysql数据库中。接下来会分析hive安装时的一些配置信息,以及元数据库中主要表的用途。
一、hive配置
有关hive的配置都在hive-site.xml文件中。
属性 | 描述 | 默认值 |
---|---|---|
hive.metastore.warehouse.dir | 指定hive表在hdfs上的存储路径 | /user/hive/warehouse |
javax.jdo.option.ConnectionURL | 配置元数据的连接URL | |
javax.jdo.option.ConnectionUserName | 元数据库连接用户名 | |
javax.jdo.option.ConnectionPassword | 元数据库连接密码 |
比如如下的配置:
<property><name>javax.jdo.option.ConnectionURL</name><value>jdbc:mysql://m000:3306/hive</value><description>JDBC connect string for a JDBC metastore</description>
</property><property><name>javax.jdo.option.ConnectionUserName</name><value>hiveuser</value><description>username to use against metastore database</description>
</property><property><name>javax.jdo.option.ConnectionPassword</name><value>hiveuser</value><description>password to use against metastore database</description>
</property>
在hive中,默认情况下新建的数据库以及表都位于HDFS的hive.metastore.warehouse.dir
路径下。如下图分别显示了数据库,表,以及表文件在HDFS上的文件路径
根据javax.jdo.option.ConnectionURL
中设置的数据库,以及用户名和密码,hive就可以写入和读取其元数据信息。
连接元数据库除了配置URL,username,password之外,还有一种间接的方式。可以在hive客户端A上用hive --service metastore
启动一个metastore服务,然后在另外一个hive客户端B的hive-site.xml文件中配置hive.metastore.uris=thrift://A:9083
也可以访问到元数据信息(9083端口为默认,可使用-p参数手动指定)。
二、元数据库表描述
这一节描述hive元数据库中比较重要的一些表的作用,随着后续对hive的使用逐渐补充更多的内容。
mysql元数据库hive中的表:
表名 | 作用 |
---|---|
BUCKETING_COLS | 存储bucket字段信息,通过SD_ID与其他表关联 |
CDS | 一个字段CD_ID,与SDS表关联 |
COLUMNS_V2 | 存储字段信息,通过CD_ID与其他表关联 |
DATABASE_PARAMS | 空 |
DBS | 存储hive的database信息 |
DELETEME1410257703262 | 空 |
FUNCS | 空 |
FUNC_RU | 空 |
GLOBAL_PRIVS | 全局变量,与表无关 |
IDXS | 空 |
INDEX_PARAMS | 空 |
PARTITIONS | 分区记录,SD_ID, TBL_ID关联 |
PARTITION_KEYS | 存储分区字段,TBL_ID关联 |
PARTITION_KEY_VALS | 分区的值,通过PART_ID关联。与PARTITION_KEYS共用同一个字段INTEGER_IDX来标示不同的分区字段。 |
PARTITION_PARAMS | 存储某分区相关信息,包括文件数,文件大小,记录条数等。通过PART_ID关联 |
PART_COL_PRIVS | 空 |
PART_COL_STATS | 空 |
PART_PRIVS | 空 |
ROLES | 角色表,和GLOBAL_PRIVS配合,与表无关 |
SDS | 存储输入输出format等信息,包括表的format和分区的format。关联字段CD_ID,SERDE_ID |
SD_PARAMS | 空 |
SEQUENCE_TABLE | 存储sqeuence相关信息,与表无关 |
SERDES | 存储序列化反序列化使用的类 |
SERDE_PARAMS | 序列化反序列化相关信息,通过SERDE_ID关联 |
SKEWED_COL_NAMES | 空 |
SKEWED_COL_VALUE_LOC_MAP | 空 |
SKEWED_STRING_LIST | 空 |
SKEWED_STRING_LIST_VALUES | 空 |
SKEWED_VALUES | 空 |
SORT_COLS | 排序字段,通过SD_ID关联 |
TABLE_PARAMS | 表相关信息,是否外部表,通过TBL_ID关联 |
TAB_COL_STATS | 空 |
TBLS | 存储表信息,关联字段DB_ID,SD_ID, |
TBL_COL_PRIVS | 空 |
TBL_PRIVS | 表赋权限相关信息,通过TBL_ID关联 |
VERSION | 版本 |
VERSION_copy | 版本,通过VER_ID关联 |
这里补充介绍hive的一个工具脚本metatool。如果需要大量修改元数据库中的相关记录,可以具体查看metatool脚本的使用方法。
比如说,对一个HDFS做HA的时候,如果之前hdfs完整路径是hdfs://m000,做完HA之后把dfs.nameservices
设置为my-cluster
之后,hdfs的访问路径就变成了hdfs://my-cluster,此时就需要对hive元数据库中所有记录作更新,这时可以参考下面的操作,
使用metatool脚本,先是新路径,然后是旧路径
/usr/local/bigdata/hive/bin/metatool -updateLocation hdfs://my-cluster hdfs://m000
三、元数据库一些查询
有时根据需求,需要对hive中的表批量处理,这时可以到元数据库中进行一些查询操作,操作请慎重!!
下面会根据元数据库中的表结构和关联关系,陆续补充一些工作中使用到的查询语句。
1、查询某表的分区
在Spark-sql查询hive表时,会由于元数据中文件与hdfs文件不一致而出现TreeNodeException的异常。比如说,在hive中show partitions时有分区pt=20160601,但是对应HDFS路径下并没有这个子文件夹时,在Spark-sql中就会出现该异常。这时如果需要查询某表的分区,就可以使用如下语句
SELECT p.* from PARTITIONS p
JOIN TBLS t
ON t.TBL_ID=p.TBL_ID
WHERE t.TBL_NAME='table'
AND PART_NAME like '%pt=20160601%';
2、查询指定库中stored as textfile类型的所有表名
select d.NAME, t.TBL_NAME,s.INPUT_FORMAT,s.OUTPUT_FORMAT
from TBLS t
join DBS d
join SDS s
where t.DB_ID = d.DB_ID
and t.SD_ID = s.SD_ID
and d.NAME='test'
and s.INPUT_FORMAT like '%TextInputFormat%';
3、查询指定库中的分区表
selectdb.NAME,tb.TBL_NAME,pk.PKEY_NAME
from TBLS tb
join DBS db
join PARTITION_KEYS pk
where tb.DB_ID = db.DB_ID
and tb.TBL_ID=pk.TBL_ID
and db.NAME='test';
4、查询指定库的非分区表
selectdb.NAME,tb.TBL_NAME
from TBLS tb
join DBS db
where tb.DB_ID = db.DB_ID
and db.NAME='test'
and tb.TBL_ID not in (select distinct TBL_ID from PARTITION_KEYS
) ;
5、查询指定库中某种存储类型的分区表
selectdb.NAME,tb.TBL_NAME,pk.PKEY_NAME,s.INPUT_FORMAT,s.OUTPUT_FORMAT
from TBLS tb
join DBS db
join PARTITION_KEYS pk
join SDS s
where tb.DB_ID = db.DB_ID
and tb.TBL_ID=pk.TBL_ID
and tb.SD_ID = s.SD_ID
and db.NAME='test'
and s.INPUT_FORMAT like '%TextInputFormat%';
6、查询指定库中某种存储类型的非分区表
selectdb.NAME,tb.TBL_NAME,s.INPUT_FORMAT,s.OUTPUT_FORMAT
from TBLS tb
join DBS db
join SDS s
where tb.DB_ID = db.DB_ID
and tb.SD_ID = s.SD_ID
and db.NAME='test'
and s.INPUT_FORMAT like '%TextInputFormat%'
and tb.TBL_ID not in (select distinct TBL_ID from PARTITION_KEYS);
转载于:https://www.cnblogs.com/wuyida/p/6300242.html
hive元数据库表分析及操作相关推荐
- java hive建表_java jdbc 操作 hive 建表 load 数据
// 需要引入 hadoop & hive jar import java.sql.Connection; import java.sql.DriverManager; import java ...
- Hive数据表删除数据操作
hive数据表中,数据的删除不可以想Oracle.MySQL那样使用delete语句删除,所以在删除数据的时候使用另外的方法 hive的数据删除,一般是两种方式 1,删除具体partition alt ...
- Hive 元数据库表信息
Hive 的元数据信息通常存储在关系型数据库中,常用MySQL数据库作为元数据库管理. 1. 版本表 i) VERSION -- 查询版本信息 2. 数据库.文件存储相关 i) DBS -- 存储 ...
- 【SPSS】生存-寿命表分析详细操作教程(附案例实战)
- Hive数据类型、数据库相关操作、表的相关操做、数据的导入导出
文章目录 Hive数据类型 1.基本数据类型 2.集合数据类型 案例实操 3.类型转化 数据库的相关操作 1.创建数据库 2.查询数据库 3.修改数据库 4.删除数据库 表的相关操作 1.建表 2.管 ...
- hive 表的常用操作
使用load 方式加载数据到Hive 表中,注意分区表加载数据的特殊性 如何保存HiveQL 查询结果:保存到表中,保存到本地文件(注意指定列分隔符) 常见查询练习,如group by.having. ...
- python操作hive数据库代码_python导出hive数据表的schema实例代码
本文研究的主要问题是python语言导出hive数据表的schema,分享了实现代码,具体如下. 为了避免运营提出无穷无尽的查询需求,我们决定将有查询价值的数据从mysql导入hive中,让他们使用H ...
- HDFS文件和HIVE表的一些操作
HDFS文件和HIVE表的一些操作 1. hadoop fs -ls 可以查看HDFS文件 后面不加目录参数的话,默认当前用户的目录./user/当前用户 $ hadoop fs -ls 16/05 ...
- Hive详细表结构操作(增加列,删除列,修改列,移动列)
Hive详细表结构操作(增加列,删除列,修改列,移动列) 1.向Hive表中添加某个字段 格式:alter table 表名 add columns (字段名 字段类型 comment '字段描述') ...
最新文章
- Linux下互斥量与条件变量详细解析
- c primer plus--数据和C(第3章)--习题
- python模拟qq空间登录_模拟登录QQ空间
- 数据库缓冲池_块缓冲| 数据库管理系统
- 图像处理经典文章合集
- 神经网络隐藏层个数怎么确定_含有一个隐藏层的神经网络对平面数据分类python实现(吴恩达深度学习课程1第3周作业)...
- hive循环语句_Hive 如何方便地实现存储过程?
- 使用SaveAsPDFandXPS + jacob实现Java word转pdf(开发笔记)
- cholesky分解_FM因子分解机的原理、公式推导、Python实现和应用
- 什么PDCA循环+原则?
- 麦克风阵列概述与波束形成—(1) 麦克风阵列概述
- rk3288 android 6.0固件,Firefly-RK3288主板烧写官方Android固件起不来
- 如何在ESXi7系列镜像里添加网卡vib驱动?
- uboot 启动 linux ----2 ----set setevn saveenv 命令 保存介质
- 【网页特效】12 个炫酷背景特效库
- cwd命令linux,PCMan's FTP Server 'CWD'命令缓冲区溢出漏洞
- 前端HTML转PDF生成的PDF上边会有留白,下边截取不全
- 春生冬至时——今日冬至
- postgresql 修改id的自增起始数
- 图标照旧的效果_这不是而且不能成为“一切照旧”
热门文章
- 计算机网络与计算机网络连接怎么办,电脑网络连接不上怎么办【是什么原因】...
- 鸿蒙灵珠被林铭得到,上古五大灵珠,蕴含三界奥秘,为众生求得一线生机。
- linux定时任务被挖矿修改,Linux挖矿威胁情报分享(被植入计划任务)
- mysql 只开放某个表_MySQL只恢复某个库或某张表
- h3c c语言题库,H3C认证试题
- ora-04098 触发器无效且未通过重新验证
- 搜索,贪心,DP,三者的区别和联系
- Kindle一些使用
- 【NOIP2007】【Luogu1093】奖学金
- u检验中的查u界值表_延边双壁波纹管pvc-u