转 关于Hive中的复杂数据类型Array,Map,Structs的一些使用案例
https://blog.csdn.net/gamer_gyt/article/details/52169441
写在前边的话:
同样是在做豆瓣电影数据分析的小课题的时候遇到的一个问题:hive表中的电影类型存储格式为array,那么我如何针对每一个类型做统计呢?
本来是想在基于豆瓣电影数据进行相关的数据分析项目 中进行相关解释说明的,仔细想了下,刚好拿出来,对hive的三个复杂数据类型做一个总结性的学习
关于Hive的一些其他数据类型使用参考:Hive的数据类型解析和表的操作实例
1:Array
顾名思义就是数组,使用方式 array<>
1):创建表
拿电影数据为例,数据的维度包括
一些数据
26606630,温柔的家伙 Soft Lad,Leon Lopez,Leon Lopez,剧情/爱情,Laura Ainsworth / Daniel Brocklebank,2015-11-09(英国),,238,5.5
4250623,爱丽丝 Alice,尼克·维林,尼克·维林,剧情/奇幻,卡特琳娜·斯柯松 / 凯西·贝茨 / 哈利·戴恩·斯坦通 / 马特·弗里沃 / 蒂姆·克里 / 科尔姆·米尼 / 安德鲁·李·波兹 / 菲利普·文切斯特,2009-12-06(美国),,5300,6.9
26051523,尊严殖民地 Colonia,佛罗瑞·加仑伯格,佛罗瑞·加仑伯格,剧情/爱情/惊悚/历史,艾玛·沃森 / 丹尼尔·布鲁赫 / 迈克尔·恩奎斯特 / 马丁·乌特克 / 薇姬·克里普斯 / 朱利安·欧文登 / 奥古斯特·席纳 / 丽琪达·卡里 / 凯撒·博尔东 / 史蒂夫·卡里尔 / 卡塔琳娜·穆勒-艾冒,2015-09-13(多伦多国际电影节)/2016-02-18(德国)/2016-04-15(美国),110,5897,7.5
26834244,为什么我们投出脱欧选票 Why We Voted to Leave: Britain Speaks,BBC,BBC,纪录片,艾德林·柴尔斯 / 戴维·卡梅伦 / 奈杰尔·法拉奇 / 鲍里
创建movie_message表:
create table movie_message(
id int,
title string,
daoyan array<string>,
bianju array<string>,
leixing array<string>,
zhuyan array<string>,
year int,
month int,
shichang int,
disnum int,
score float
)
comment "this table about movie's message"
row format delimited fields terminated by ","
collection items terminated by '/';
加载数据(可以从本地加载,也可以从hdfs装载,当然也可以从别的表中查询结果进行转载),这里从本地装载
load data local inpath "/home/master/mycode/new_movies_load.csv" into table movie_message;
2):查看array的元素
用下标进行寻找,类似于其他编程语言中的数组访问
hive> select leixing[0] from movie_message limit 5;
OK
剧情
剧情
剧情
纪录片
喜剧
Time taken: 1.116 seconds, Fetched: 5 row(s)
3):内嵌查询及统计
这里就是 写在前边的话中提到的问题,这里使用explode和lateral view关键字,应该这样写
select lx,count(*) from movie_message lateral view explode(leixing) leixing as lx group by lx;
结果为:
传记 194
儿童 18
冒险 242
剧情 1490
动作 252
动画 106
历史 208
古装 9
同性 84
喜剧 618
奇幻 178
家庭 130
恐怖 152
悬念 2
悬疑 386
情色 19
惊悚 435
戏曲 11
战争 144
歌舞 40
武侠 1
灾难 11
爱情 404
犯罪 442
真人秀 6
短片 165
科幻 165
纪录片 620
脱口秀 10
舞台艺术 8
西部 6
运动 29
音乐 123
鬼怪 1
黑色电影 4
4):如何保存查询结果
这里使用overwrite方法,只需在你的语句前加上即可
insert overwrite local directory "you path"
也可以指定字段之间的分隔符
row format delimited fields terminated by "\t"
还是上边统计类型的例子,这里将其查询结果保存在本地/home/master/mycode/movie_leixing
insert overwrite local directory "/home/master/mycode/movie_leixing"
row format delimited fields terminated by "\t"
select lx,count(*) from movie_message lateral view explode(leixing) leixing as lx group by lx;
2:Map
就是<key:value>这样的键值对,假设我们有这样格式的数据人物A,主演了BCD电影,将于2016-05上映
A ABC:2016-05,EFG:2016-09
B OPQ:2015-06,XYZ:2016-04
1):创建表
create table people_movie(
name string,
movie map<string,string> )
row format delimited fields terminated by "\t"
collection items terminated by ","
map keys terminated by ":";
加载数据
load data local inpath "/home/master/map" into table people_movie;
2):普通查看表数据
hive> select * from people_movie;
OK
A {"ABC":"2016-05","EFG":"2016-09"}
B {"OPQ":"2015-06","XYZ":"2016-04"}
A {"ABC":"2016-05","EFG":"2016-09"}
B {"OPQ":"2015-06","XYZ":"2016-04"}
Time taken: 0.148 seconds, Fetched: 4 row(s)
hive> select movie['ABC'] from people_movie;
OK
2016-05
NULL
2016-05
NULL
Time taken: 0.144 seconds, Fetched: 4 row(s)
3):使用explode关键字查询
hive> select explode(movie) as (m_name,m_time) from people_movie;
OK
ABC 2016-05
EFG 2016-09
OPQ 2015-06
XYZ 2016-04
ABC 2016-05
EFG 2016-09
OPQ 2015-06
XYZ 2016-04
Time taken: 0.121 seconds, Fetched: 8 row(s)
4):使用explode和lateral view结合查询
hive> select name,mo,time from people_movie lateral view explode(movie) movie as mo,time;
OK
A ABC 2016-05
A EFG 2016-09
B OPQ 2015-06
B XYZ 2016-04
A ABC 2016-05
A EFG 2016-09
B OPQ 2015-06
B XYZ 2016-04
Time taken: 0.147 seconds, Fetched: 8 row(s)
3:Structs
类似于C语言中的结构体,内部数据通过X.X来获取,假设我们的数据格式是这样的,电影ABC,有1254人评价过,打分为7.4分
ABC 1254:7.4
DEF 256:4.9
XYZ 456:5.4
1):创建数据表
Time taken: 0.147 seconds, Fetched: 8 row(s)
hive> create table movie_score(
> name string,
> info struct<number:int,score:float>
> )row format delimited fields terminated by "\t"
> collection items terminated by ":";
2):查询表数据
hive> select * from movie_score;
OK
ABC {"number":1254,"score":7.4}
DEF {"number":256,"score":4.9}
XYZ {"number":456,"score":5.4}
Time taken: 0.103 seconds, Fetched: 3 row(s)
hive> select info.number,info.score from movie_score;
OK
1254 7.4
256 4.9
456 5.4
Time taken: 0.148 seconds, Fetched: 3 row(s)
4:collect_set函数
这里再另外介绍一个函数collect_set(),该函数的作用是将某字段的值进行去重汇总,产生Array类型字段,假设数据格式如下:
hive> select * from test;
OK
1 A
1 C
1 B
2 B
2 C
2 D
3 B
3 C
3 D
Time taken: 0.096 seconds, Fetched: 6 row(s)
现在要统计每个id得到的等级
select id,collect_set(name) from test group by id;
结果为
Total MapReduce CPU Time Spent: 3 seconds 360 msec
OK
1 ["A","C","B"]
2 ["B","C","D"]
3 ["B","C","D"]
Time taken: 32.298 seconds, Fetched: 3 row(s)
转 关于Hive中的复杂数据类型Array,Map,Structs的一些使用案例相关推荐
- Hive中数据类型和隐式转换
基本数据类型(能记住几个常用的就行) HIVE数据类型 Java数据类型 TINYINT byte SMALINT short INT int BIGINT long BOOLEAN boolean ...
- hive中的数据类型
数据类型 1.Hive中的数据类型分为两类:基本类型和复杂类型 2.基本类型包含:tinyint,smallint,int,bigint,float,double,boolean,string,tim ...
- hive中array嵌套map以及行转列的使用
1. 数据源信息 {"student": {"name":"king","age":11,"sex" ...
- hive中存Array类型的数据的案例,将字符串的数组格式转成数组的字符串,自定义函数方式处理‘[12,23,23,34]‘字符串格式的数据为array<int>格式的数据。
1.创建表带有Array的表: create table t_afan_test ( info1 array<int>, info2 array<string> ) ROW F ...
- HIVE中的表以及语法
2019独角兽企业重金招聘Python工程师标准>>> HIVE中的表以及语法 一.HIVE的表 HIVE使用的功能性的表格分为四种:内部表.外部表.分区表.分桶表. 1.内部表.外 ...
- Hadoop生态hive(四)数据类型
转载自 Hive数据类型 一.列类型 列类型被用作Hive的列数据类型.它们如下: (1)整型 整型数据可以指定使用整型数据类型,INT.当数据范围超过INT的范围,需要使用BIGINT,如果数据范 ...
- hive中如何把13位转化为时间_重要知识点收藏 | Hive常用函数大全
关系运算 1.等值比较: = 语法:A=B 操作类型:所有基本类型 描述: 如果表达式A与表达式B相等,则为TRUE:否则为FALSE 举例: hive>select 1 from lxw_du ...
- hive和mysql传输数据类型_hive的数据类型
1. 基本数据类型 新增数据类型TIMESTAMP的值可以是: • 整数:距离Unix新纪元时间(1970年1月1日,午夜12点)的秒数 • 浮点数:距离Unix新纪元时间的秒数,精确到纳秒(小数点后 ...
- Hive(二)——数据类型与文件格式
Hive(二)--数据类型与文件格式 数据 基本数据类型 集合数据类型 分隔符 # 数据: John Doe^A100000.0^AMary Smith^BTodd Jones^AFederal Ta ...
最新文章
- 可以控制到多低(功率)?
- 网页上加在线客服代码QQ,MSN,skype,goolge TALK,雅虎通,贸易通,淘宝旺旺
- ByteBuffer 类
- Python学习笔记_1_基础_2:数据运算、bytes数据类型、.pyc文件(什么鬼)
- php价格结算,PHP根据用户折扣计算商品价格
- mysql 时间小于_删库不必跑路,自己动手MySQL数据恢复,真香~~
- PHP array_splice
- 17.UNIX 环境高级编程--高级进程间的通信
- paip.提升用户体验---文件查找
- 【机器学习系列】MCMC第四讲:Metropolis Hastings采样算法
- 还债之期末复习(预习)
- 【画学numpy】Drawing and Studying Numpy
- 智能门锁主流品牌有哪些?选购门锁时要注重产品的哪些特性?
- 泛微为芯片行业搭建数字化平台:研发、生产、销售、文档一体管理
- QQ炫舞新上线紫钻Lv9和皇冠贵族Lv11 QQ炫舞紫钻9级图标上线
- Android |双锁单例模式中使用Context如何避免内存泄露的 Warning 提示
- 白苹果修复_ReiBoot Pro——iOS系统修复软件
- 分析一个简单的汇编代码
- DevCon 命令行实用工具可替代设备管理器
- 前车之鉴,后事之师——跨境多地域云仓储设计和实践