hive shell

创建外表,指定目录
CREATE EXTERNAL TABLE IF NOT EXISTS songs2 (
sid string,
aid string,
ptime string,
sinit int,
language int,
gender int) 
COMMENT 'This is the staging page view table'   
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
LOCATION  '/bs/music/songs/'; 
导入HDFS文件(原文件消失)
LOAD DATA INPATH '/bs/music/input/mars_tianchi_songs.csv' OVERWRITE INTO TABLE songs2;
查看前10条数据
select * from songs2 limit 10;
创建外表,指定目录
CREATE EXTERNAL TABLE IF NOT EXISTS useraction (
uid string,
sid string,
btime string,
atype int,
ds string) 
COMMENT 'This is the staging page view table'   
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
LOCATION  '/bs/music/useraction/'; 
导入HDFS文件(原文件消失)
LOAD DATA INPATH '/bs/music/input/mars_tianchi_user_actions.csv' OVERWRITE INTO TABLE useraction;
select * from useraction limit 10;
表连接 小表在前
SELECT t1.*,t2.* FROM songs2 t1 JOIN useraction t2 on t1.sid=t2.sid;
Map join连接
SELECT /*+mapjoin(songs2)*/ t1.*,t2.* FROM songs2 t1 JOIN useraction t2 on t1.sid=t2.sid;
导出查询数据到hdfs 
INSERT OVERWRITE DIRECTORY '/bs/music/data' 
SELECT /*+mapjoin(songs2)*/ t1.*,t2.* FROM songs2 t1 JOIN useraction t2 on t1.sid=t2.sid;
查询结果保存到表
CREATE EXTERNAL TABLE IF NOT EXISTS usersongs (
sid string,
aid string,
ptime string,
sinit int,
language int,
gender int,
uid string,
sid2 string,
btime string,
atype int,
ds string) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
LOCATION  '/bs/music/data/'; 
INSERT OVERWRITE TABLE usersongs 
SELECT /*+mapjoin(songs2)*/ t1.*,t2.* FROM songs2 t1 JOIN useraction t2 on t1.sid=t2.sid;
查询结果保存到本地
hive -e "select * from usersongs limit 10" >> /opt/tools/test.csv
查看HDFS上文件的前5行
hadoop fs -text  /bs/music/data/000000_0 |head -n 5
去重分组查询 同一aid的uid去重总量,sid的去重总量
select count(distinct uid),count(distinct sid),aid from usersongs  where atype=1 group by aid;

利用hive完成阿里天池大数据音乐预测比赛数据处理工作相关推荐

  1. 阿里天池大数据竞赛——口碑商家客流量预测 A2

    阿里天池大赛koubeiyuce1 2017年二月份,天池大数据比赛,口碑商家客流量预测,参赛地址及详情: https://tianchi.shuju.aliyun.com/competition/i ...

  2. 阿里天池大数据之移动推荐算法大赛总结及代码全公布

    移动推荐算法比赛已经结束了一个多星期了,现在写一篇文章来回顾一下自己的参赛历程. 首先,对不了解这个比赛的同学们介绍一下这个比赛(引用自官网): 赛题简介 2014年是阿里巴巴集团移动电商业务快速发展 ...

  3. 9个比赛7进top10,阿里天池大数据竞赛思路分享

    向AI转型的程序员都关注了这个号

  4. 阿里天池大数据竞赛第一名,如何用AI检测肺癌

    向AI转型的程序员都关注了这个号

  5. 阿里天池大数据竞赛(一)用ODPS提取特征

    //2015年4月30日 提取特征之所以难,是因为我们写出的sql语句往往只能提取一个特征. 而在ODPS上却不一样,一条语句可以提取很多特征. 如提取最近1.2.3.4天四种行为的数量 重点是dec ...

  6. 新人 天池大数据初涉水

    天池精准医疗大赛--人工智能辅助糖尿病遗传风险预测 一直想做一个天池大数据方面的比赛,以前一直没时间,正逢糖尿病风险预测比赛,阿里举办的,课题比较喜欢,哈哈 进入天池大数据竞赛中心,就可以看到相关信息 ...

  7. 阿里云天池大数据:【入门】精灵宝可梦数据集分析

    目的 学习,实践,不同机器学习算法 使用的包及安装 pip install numpy pip install Pandas 数据获取 阿里云天池大数据竞赛官网获取 莫某 引入包 import pan ...

  8. 天池大数据竞赛第一名,上海交通大学人工智能实验室如何用AI定位肺结节

    癌症,犹如黑暗中的魔鬼,带给人们恐惧与绝望.而肺癌,在我国作为发病率.死亡率最高的一类癌症,伤害着无数家庭.在我国每年都有近60万人死于肺癌.然而,癌症的死亡率与首次发现癌症的时期紧密相关,早期肺结节 ...

  9. 漫谈阿里那些大数据技术,大数据学习者必看

    目前人人都在谈大数据,谈DT时代,但是,大数据是什么,每个人都有自己的一个看法,好比盲人摸象,每个都认为自己摸到是真正的大象.我也担心我所看到的,只是大数据的冰山一角,毕竟,将引领整个人类下一次变革的 ...

最新文章

  1. Jfinal集成Spring插件
  2. php钩子是啥意思,php中的钩子理解及应用实例分析
  3. mail发送的内容显示为附件的解决办法
  4. 【转】Windows Azure的账户体系
  5. Python之数据重塑——【stack()方法和unstack()方法、pivot()方法】
  6. jQuery源码分析系列:.domManip() .buildFragment() .clean()
  7. python get请求带参数_python_request的安装及模拟json的post请求及带参数的get请求
  8. 单片机之串行通信接口遇到的问题
  9. CEF与JavaScript交互读取电脑信息
  10. 【雷达通信】基于matlab线性调频(LFM)脉冲压缩雷达仿真【含Matlab源码 283期】
  11. 《高性能MYSQL》
  12. 文本转语音通过语音合成标记语言(SSML)改进合成 知识点详解(1)
  13. 卡方检验详解分析与实例
  14. 502 java_502 Bad Gateway
  15. PHP 微信支付 企业支付个人 企业转账个人 企业转零钱
  16. 拟一维喷管流动的数值解——全亚声速等熵喷管流动的非守恒型CFD解法(MacCormack方法)
  17. 记录一个傻逼问题- 百度地图接入 鉴权问题
  18. Studio 3T重置日期,达到重复试用的效果
  19. 逢7必过或拍7游戏(七的倍数、带7的)用C语言实现
  20. 公众号榜单 | 2020·6月公众号行业排行榜重磅发布

热门文章

  1. android指定sqlite路径_android sqlite 存储位置
  2. linux firmware 框架,学习整理:arm-trusted-firmware
  3. 微软文本转语音实测记录附php/go调用源码
  4. 《挖掘管理价值:企业软件项目管理实战》一2.3 需求分析过程
  5. 41. 如何手动触发全量回收垃圾,如何立即触发垃圾回收
  6. python爬虫之Scrapy框架,基本介绍使用以及用框架下载图片案例
  7. 用PC3000和HDD Unlock解笔记本硬盘密码
  8. 【node】mac系统下升级node版本
  9. diy 单片机 自动浇花_基于单片机的自动浇花系统
  10. 基于stm32单片机的台历日历计时器万年历Proteus仿真(源码+仿真+全套资料)