【Hive笔记】练习hive操作
1.使用hive统计出每个用户的累积访问次数
数据准备:
userId | visitDate | visitCount |
---|---|---|
u01 | 2017/1/21 | 5 |
u02 | 2017/1/23 | 6 |
u03 | 2017/1/22 | 8 |
u04 | 2017/1/20 | 3 |
u01 | 2017/1/23 | 6 |
u01 | 2017/1/21 | 8 |
u02 | 2017/1/23 | 6 |
u01 | 2017/1/22 | 4 |
建表语句:
create table action(userid string,visitDate string,visitCount string) row format delimited fields terminated by '\t';
导入数据:
load data local inpath '/home/lzx/file/visite.txt' into table action;
数据预览:
查询 语句:
select *,sum(c1) over(partition by userid order by time) from ( select userid,time,sum(visitcount) as c1 from ( select userid,from_unixtime(unix_timestamp(visitdate,'yyyy/MM/dd'),'yyyy-MM') as time,visitcount from action) tt group by userid,time ) dd;
2. 京东问题
数据准备:
userid (用户名) | shop(商店名) |
---|---|
u1 | a |
u2 | b |
u1 | b |
u1 | a |
u3 | c |
u4 | b |
u1 | a |
u2 | c |
u5 | b |
u4 | b |
u6 | c |
u2 | c |
u1 | b |
u2 | a |
u2 | a |
u3 | a |
u5 | a |
u5 | a |
u5 | a |
建表语句:
create table jd(userid string,shop string) row format delimited fields terminated by '\t';
导入数据:
load data local inpath '/home/lzx/file/jd.txt' into table jd;
预览数据:
1.求每个店铺的访客人数
第一种解法:
select shop, count(distinct userid) from jd group by shop;
但是这种解法如果碰到大量数据,就会出现数据倾斜,大量相同userid的人都去了一个reduce。
第二种解法:
先去重 后求和
select t.shop,count(*) from (select userid,shop from jd group by userid,shop) t group by t.shop;
结果是一样的。
2.求每个店铺访问次数的top3的访客信息,输出店铺名称,访客id,访客次数。
先根据userid和shop分组,得到每个店铺,每个游客的访问量
通过row_number() over() 根据shop分组,降序排序得到访问前三名。
select * from ( select shop,userid,num,row_number() over(partition by shop order by shop,num desc) rn from ( select shop,userid,count(*) as num from jd group by userid,shop ) tt ) ttt where rn <4;
蚂蚁森林问题
背景说明:
以下表记录了用户每天的蚂蚁森林低碳生活领取的记录流水。
table_name:user_low_carbon
user_id data_dt low_carbon
用户 日期 减少碳排放(g)蚂蚁森林植物换购表,用于记录申领环保植物所需要减少的碳排放量
table_name: plant_carbon
plant_id plant_name low_carbon
植物编号 植物名 换购植物所需要的碳----题目
1.蚂蚁森林植物申领统计
问题:假设2017年1月1日开始记录低碳数据(user_low_carbon),假设2017年10月1日之前满足申领条件的用户都申领了一颗p004-胡杨,
剩余的能量全部用来领取“p002-沙柳” 。
统计在10月1日累计申领“p002-沙柳” 排名前10的用户信息;以及他比后一名多领了几颗沙柳。
得到的统计结果如下表样式:
user_id plant_count less_count(比后一名多领了几颗沙柳)
u_101 1000 100
u_088 900 400
u_103 500 …2、蚂蚁森林低碳用户排名分析
问题:查询user_low_carbon表中每日流水记录,条件为:
用户在2017年,连续三天(或以上)的天数里,
每天减少碳排放(low_carbon)都超过100g的用户低碳流水。
需要查询返回满足以上条件的user_low_carbon表中的记录流水。
例如用户u_002符合条件的记录如下,因为2017/1/2~2017/1/5连续四天的碳排放量之和都大于等于100g:
seq(key) user_id data_dt low_carbon
xxxxx10 u_002 2017/1/2 150
xxxxx11 u_002 2017/1/2 70
xxxxx12 u_002 2017/1/3 30
xxxxx13 u_002 2017/1/3 80
xxxxx14 u_002 2017/1/4 150
xxxxx14 u_002 2017/1/5 101
备注:统计方法不限于sql、procedure、python,java等
创建表:
create table user_low_carbon(user_id String,data_dt String,low_carbon int) row format delimited fields terminated by '\t';
create table plant_carbon(plant_id string,plant_name String,low_carbon int) row format delimited fields terminated by '\t';
数据样例:
plant_carbon.txt
p001 梭梭树 17
p002 沙柳 19
p003 樟子树 146
p004 胡杨 215
user_low_carbon.txt
u_001 2017/1/1 10
u_001 2017/1/2 150
u_001 2017/1/2 110
u_001 2017/1/2 10
u_001 2017/1/4 50
u_001 2017/1/4 10
u_001 2017/1/6 45
u_001 2017/1/6 90
u_002 2017/1/1 10
u_002 2017/1/2 150
u_002 2017/1/2 70
u_002 2017/1/3 30
u_002 2017/1/3 80
u_002 2017/1/4 150
u_002 2017/1/5 101
u_002 2017/1/6 68
u_003 2017/1/1 20
u_003 2017/1/2 10
u_003 2017/1/2 150
u_003 2017/1/3 160
u_003 2017/1/4 20
u_003 2017/1/5 120
u_003 2017/1/6 20
u_003 2017/1/7 10
u_003 2017/1/7 110
u_004 2017/1/1 110
u_004 2017/1/2 20
u_004 2017/1/2 50
u_004 2017/1/3 120
u_004 2017/1/4 30
u_004 2017/1/5 60
u_004 2017/1/6 120
u_004 2017/1/7 10
u_004 2017/1/7 120
u_005 2017/1/1 80
u_005 2017/1/2 50
u_005 2017/1/2 80
u_005 2017/1/3 180
u_005 2017/1/4 180
u_005 2017/1/4 10
u_005 2017/1/5 80
u_005 2017/1/6 280
u_005 2017/1/7 80
u_005 2017/1/7 80
u_006 2017/1/1 40
u_006 2017/1/2 40
u_006 2017/1/2 140
u_006 2017/1/3 210
u_006 2017/1/3 10
u_006 2017/1/4 40
u_006 2017/1/5 40
u_006 2017/1/6 20
u_006 2017/1/7 50
u_006 2017/1/7 240
u_007 2017/1/1 130
u_007 2017/1/2 30
u_007 2017/1/2 330
u_007 2017/1/3 30
u_007 2017/1/4 530
u_007 2017/1/5 30
u_007 2017/1/6 230
u_007 2017/1/7 130
u_007 2017/1/7 30
u_008 2017/1/1 160
u_008 2017/1/2 60
u_008 2017/1/2 60
u_008 2017/1/3 60
u_008 2017/1/4 260
u_008 2017/1/5 360
u_008 2017/1/6 160
u_008 2017/1/7 60
u_008 2017/1/7 60
u_009 2017/1/1 70
u_009 2017/1/2 70
u_009 2017/1/2 70
u_009 2017/1/3 170
u_009 2017/1/4 270
u_009 2017/1/5 70
u_009 2017/1/6 70
u_009 2017/1/7 70
u_009 2017/1/7 70
u_010 2017/1/1 90
u_010 2017/1/2 90
u_010 2017/1/2 90
u_010 2017/1/3 90
u_010 2017/1/4 90
u_010 2017/1/4 80
u_010 2017/1/5 90
u_010 2017/1/5 90
u_010 2017/1/6 190
u_010 2017/1/7 90
u_010 2017/1/7 90
u_011 2017/1/1 110
u_011 2017/1/2 100
u_011 2017/1/2 100
u_011 2017/1/3 120
u_011 2017/1/4 100
u_011 2017/1/5 100
u_011 2017/1/6 100
u_011 2017/1/7 130
u_011 2017/1/7 100
u_012 2017/1/1 10
u_012 2017/1/2 120
u_012 2017/1/2 10
u_012 2017/1/3 10
u_012 2017/1/4 50
u_012 2017/1/5 10
u_012 2017/1/6 20
u_012 2017/1/7 10
u_012 2017/1/7 10
u_013 2017/1/1 50
u_013 2017/1/2 150
u_013 2017/1/2 50
u_013 2017/1/3 150
u_013 2017/1/4 550
u_013 2017/1/5 350
u_013 2017/1/6 50
u_013 2017/1/7 20
u_013 2017/1/7 60
u_014 2017/1/1 220
u_014 2017/1/2 120
u_014 2017/1/2 20
u_014 2017/1/3 20
u_014 2017/1/4 20
u_014 2017/1/5 250
u_014 2017/1/6 120
u_014 2017/1/7 270
u_014 2017/1/7 20
u_015 2017/1/1 10
u_015 2017/1/2 20
u_015 2017/1/2 10
u_015 2017/1/3 10
u_015 2017/1/4 20
u_015 2017/1/5 70
u_015 2017/1/6 10
u_015 2017/1/7 80
u_015 2017/1/7 60
导入数据:
load data local inpath "/home/lzx/file/low_carbon.txt" into table user_low_carbon;
load data local inpath "/home/lzx/file/plant_carbon.txt" into table plant_carbon;
预览:
解题过程:
1.蚂蚁森林植物申领统计
第一步:获取时间在10.1号之前的数据并求得降低碳总数
select user_id,sum(low_carbon) sum_carbon from user_low_carbon t where datediff(regexp_replace(data_dt,'/','-'),'2017-10-1')<0 group by user_id order by sum_carbon desc
第二步:求得减去胡杨能得到的沙柳的数量
select user_id,sum_carbon,floor(if(sum_carbon>215,sum_carbon-215,0)/19) as carbon from ( select user_id,sum(low_carbon) sum_carbon from user_low_carbon t where datediff(regexp_replace(data_dt,'/','-'),'2017-10-1')<0 group by user_id order by sum_carbon desc ) t
这里面省掉了查询种树所需要的碳量
第三步:通过窗口函数查询前十名比后一名多多少棵树
select user_id,sum_carbon,carbon, carbon - (lead(carbon,1,'0') over(order by carbon desc)) as num from ( select user_id,sum_carbon,floor(if(sum_carbon>215,sum_carbon-215,0)/19) as carbon from ( select user_id,sum(low_carbon) sum_carbon from user_low_carbon t where datediff(regexp_replace(data_dt,'/','-'),'2017-10-1')<0 group by user_id order by sum_carbon desc ) t ) tt limit 10;
2、蚂蚁森林低碳用户排名分析
看到题目里说的,条件有三个:
第一个条件:用户在2017年
第二个条件:连续三天(或以上)的天数里
第三个条件:每天减少碳排放都超过100g的用户
所以第一步sql,获取每天减少排放量超过100g的记录
select user_id, regexp_replace(data_dt,'/','-') as data_dt from user_low_carbon
where substring(data_dt,1,4) = '2017'
group by user_id,data_dt having sum(low_carbon) >=100
order by user_id ,data_dt
第二步sql获取每条记录的前两天和后两天的日期以及本条记录日期相减的数据
select
user_id,
data_dt,
datediff(data_dt,lag(data_dt,2,'1990-1-1') over(partition by user_id order by data_dt)) as t1,
datediff(data_dt,lag(data_dt,1,'1990-1-1') over(partition by user_id order by data_dt)) as t2,
datediff(data_dt,lead(data_dt,1,'1990-1-1') over(partition by user_id order by data_dt)) as t3,
datediff(data_dt,lead(data_dt,2,'1990-1-1') over(partition by user_id order by data_dt)) as t4
from (
select user_id, regexp_replace(data_dt,'/','-') as data_dt from user_low_carbon
where substring(data_dt,1,4) = '2017'
group by user_id,data_dt having sum(low_carbon) >=100
order by user_id ,data_dt) tt
第三步sql获取符合日期连续三天的
select user_id,data_dt from (
select
user_id,
data_dt,
datediff(data_dt,lag(data_dt,2,'1990-1-1') over(partition by user_id order by data_dt)) as t1,
datediff(data_dt,lag(data_dt,1,'1990-1-1') over(partition by user_id order by data_dt)) as t2,
datediff(data_dt,lead(data_dt,1,'1990-1-1') over(partition by user_id order by data_dt)) as t3,
datediff(data_dt,lead(data_dt,2,'1990-1-1') over(partition by user_id order by data_dt)) as t4
from (
select user_id, regexp_replace(data_dt,'/','-') as data_dt from user_low_carbon
where substring(data_dt,1,4) = '2017'
group by user_id,data_dt having sum(low_carbon) >=100
order by user_id ,data_dt) tt ) dd where ( t1 = 2 and t2 =1) or (t2=1 and t3=-1) or (t3=-1 and t4=-2);
因为需要查询返回满足以上条件的user_low_carbon表中的记录流水所以还需要一步 join 原表。
select t5.*from (
select user_id, data_dt from (
select
user_id,
regexp_replace(data_dt,'-','/') as data_dt,
datediff(data_dt,lag(data_dt,2,'1990-1-1') over(partition by user_id order by data_dt)) as t1,
datediff(data_dt,lag(data_dt,1,'1990-1-1') over(partition by user_id order by data_dt)) as t2,
datediff(data_dt,lead(data_dt,1,'1990-1-1') over(partition by user_id order by data_dt)) as t3,
datediff(data_dt,lead(data_dt,2,'1990-1-1') over(partition by user_id order by data_dt)) as t4
from (
select user_id, regexp_replace(data_dt,'/','-') as data_dt from user_low_carbon
where substring(data_dt,1,4) = '2017'
group by user_id,data_dt having sum(low_carbon) >=100
order by user_id ,data_dt) tt ) dd where ( t1 = 2 and t2 =1) or (t2=1 and t3=-1) or (t3=-1 and t4=-2)) t4
join user_low_carbon t5 on t4.user_id = t5.user_id and t4.data_dt = t5.data_dt;
第二题还有第二种解法:
通过日期对rank的序列值相减得到结果日期 通过判断是否是相等的值并且大于三个来判断是否是连续的三天
第一步sql:获取一天的减少碳排放大于100的
select user_id,data_dt,sum(low_carbon) sum_carbon,
rank() over(partition by user_id order by data_dt) rank
from user_low_carbon
where substring(data_dt,1,4)="2017"
group by user_id,data_dt
having sum_carbon>100
第二步sql:获取日期减去序列值的日期
select user_id,data_dt,
date_sub(regexp_replace(data_dt,"/","-"),rank) sub
from (select user_id,data_dt,sum(low_carbon) sum_carbon,
rank() over(partition by user_id order by data_dt) rank
from user_low_carbon
where substring(data_dt,1,4)="2017"
group by user_id,data_dt
having sum_carbon>100)t1
第三步sql:获取减去的日期值连续三个相等的就是我们需要的
select user_id,data_dt
from (
select user_id,data_dt,
count(*) over(partition by user_id,sub) threeDays
from (select user_id,data_dt,
date_sub(regexp_replace(data_dt,"/","-"),rank) sub
from (select user_id,data_dt,sum(low_carbon) sum_carbon,
rank() over(partition by user_id order by data_dt) rank
from user_low_carbon
where substring(data_dt,1,4)="2017"
group by user_id,data_dt
having sum_carbon>100)t1)t2
)t3
where threeDays>=3
order by user_id,data_dt;
【Hive笔记】练习hive操作相关推荐
- 大数据学习笔记34:Hive - 数据库与表操作
文章目录 一.准备工作 1.启动Hadoop 2.启动Hive 二.数据库操作 1.创建数据库 2.查询数据库 (1)显示全部数据库 (2)查询满足条件的数据库 3.修改数据库信息 (1)给数据库添加 ...
- Hadoop的学习笔记(Hive|pig|zookeeper|hbase)
轉載的,此筆記的鏈接地址請點擊此處 hadoop笔记本 <div class="postText"><div id="cnblogs_post_body ...
- hive 笔记(有点乱,凑合看)
hive 笔记(有点乱,凑合看) set hive.map.aggr=true; set hive.groupby.skewindata=true; set hive.merg.mapfiles=tr ...
- 2021年大数据Hive(三):手把手教你如何吃透Hive数据库和表操作(学会秒变数仓大佬)
全网最详细的Hive文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 系列历史文章 前言 Hive数据库和表操作 一.数据库操作 1.创建数据库 2.创建 ...
- hive删除hbase数据_Hive进阶:Hive通过外部表操作Hbase数据
概述: HBase: 查询效率比较高,常为实时业务提供服务,但是其查询方式比较单一,只能通过row方式get单条数据,或者通过scan加过滤器的方式扫描数据表获取数据. Hive: hive用来存储结 ...
- php调用hive,如何进行hive的简单操作
搭建Hive的图形界面 添加war包到hive的lib目录,需要大家耐心学习. 1. 启动hive 因为需要借助于MySQL保存Hive的元数据,所以,请首先启动MySQL数据库service mys ...
- Hive基本操作,DDL操作(创建表,修改表,显示命令),DML操作(Load Insert Select),Hive Join,Hive Shell参数(内置运算符、内置函数)等
1. Hive基本操作 1.1DDL操作 1.1.1 创建表 建表语法 CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_nam ...
- Hive的两种操作模式
Hive的客户端操作 Hive的客户端操作 通过JDBC操作Hive 通过Thrift操作Hive 通过JDBC操作Hive 首先 Hive 启动远程服务 hive --service hiveser ...
- Hive之DDL数据操作
Hive之DDL数据操作 目录 数据导入 数据导出 清除表中数据 1. 数据导入 1. 向表中装载数据(Load) 语法 hive> load data [local] inpath '/opt ...
- HDFS文件和HIVE表的一些操作
HDFS文件和HIVE表的一些操作 1. hadoop fs -ls 可以查看HDFS文件 后面不加目录参数的话,默认当前用户的目录./user/当前用户 $ hadoop fs -ls 16/05 ...
最新文章
- pytorch中如何处理RNN输入变长序列padding
- Django 定义模型2.1
- trash-cli设置Linux 回收站
- 高德APP启动耗时剖析与优化实践(iOS篇)
- 国内做事就要高调——财富人生:邹果庆:中国新蛋网总裁
- Java 自动装箱性能
- R,让你的数据分析更简便!
- jquery和easui学习总结_jQuery EasyUI总结
- 企业如何架设代理服务器联接互联网
- systemverilog 中的always_comb, always_latch, always_ff
- 在线全国计算机等级模拟题,全国计算机等级考试模拟试题一级.doc
- 欧格教育:提升店铺流量的方法
- html5 audio左侧,HTML5之Audio(四)—— 左右声道
- 简单的微信聊天模拟(W-01)
- 使用Django Highcharts制作图表
- SDNU_ACM_ICPC_2020_Winter_Practice_4th [Reproduced]
- LaTex bib引用知网论文NoteExpress格式文献 —— cnki2bib
- 最全Java项目合集(附源码课件),可完美运行
- 用python制作条形图时出现“posx and posy should be finite values”问题的解决方法
- 别老扯什么Hadoop了,你的数据根本不够大
热门文章
- c#加密:四、公钥加密和签名
- 加速LaTeX编译速度:使用VScode远程工具Remote-SSH在Linux系统上编译LaTeX
- sr锁存器和rs锁存器_数字电子产品中的SR锁存器
- mysql中的affected_rows
- vue.runtime.esm.js?2b0e:619 [Vue warn]: Error in render: “TypeError: Cannot read property ‘matched‘
- OnClose和OnDestroy
- 锅炉结垢不停炉不停工在线除垢技术与7种化学清洗水垢方法优势对比
- 使用slf4j的时候一个错误Failed to load class org.slf4j.impl.StaticLoggerBinder。
- 北京中医药大学计算机学什么,北京中医药大学《计算机基础》平时作业3
- Python实战系列(三)——基于Numpy和Matplotlib的图表绘制(折线图和堆积柱状图)