利用hive完成阿里天池大数据音乐预测比赛数据处理工作
hive shell
创建外表,指定目录
CREATE EXTERNAL TABLE IF NOT EXISTS songs2 (
sid string,
aid string,
ptime string,
sinit int,
language int,
gender int)
COMMENT 'This is the staging page view table'
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
LOCATION '/bs/music/songs/';
导入HDFS文件(原文件消失)
LOAD DATA INPATH '/bs/music/input/mars_tianchi_songs.csv' OVERWRITE INTO TABLE songs2;
查看前10条数据
select * from songs2 limit 10;
创建外表,指定目录
CREATE EXTERNAL TABLE IF NOT EXISTS useraction (
uid string,
sid string,
btime string,
atype int,
ds string)
COMMENT 'This is the staging page view table'
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
LOCATION '/bs/music/useraction/';
导入HDFS文件(原文件消失)
LOAD DATA INPATH '/bs/music/input/mars_tianchi_user_actions.csv' OVERWRITE INTO TABLE useraction;
select * from useraction limit 10;
表连接 小表在前
SELECT t1.*,t2.* FROM songs2 t1 JOIN useraction t2 on t1.sid=t2.sid;
Map join连接
SELECT /*+mapjoin(songs2)*/ t1.*,t2.* FROM songs2 t1 JOIN useraction t2 on t1.sid=t2.sid;
导出查询数据到hdfs
INSERT OVERWRITE DIRECTORY '/bs/music/data'
SELECT /*+mapjoin(songs2)*/ t1.*,t2.* FROM songs2 t1 JOIN useraction t2 on t1.sid=t2.sid;
查询结果保存到表
CREATE EXTERNAL TABLE IF NOT EXISTS usersongs (
sid string,
aid string,
ptime string,
sinit int,
language int,
gender int,
uid string,
sid2 string,
btime string,
atype int,
ds string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
LOCATION '/bs/music/data/';
INSERT OVERWRITE TABLE usersongs
SELECT /*+mapjoin(songs2)*/ t1.*,t2.* FROM songs2 t1 JOIN useraction t2 on t1.sid=t2.sid;
查询结果保存到本地
hive -e "select * from usersongs limit 10" >> /opt/tools/test.csv
查看HDFS上文件的前5行
hadoop fs -text /bs/music/data/000000_0 |head -n 5
去重分组查询 同一aid的uid去重总量,sid的去重总量
select count(distinct uid),count(distinct sid),aid from usersongs where atype=1 group by aid;
利用hive完成阿里天池大数据音乐预测比赛数据处理工作相关推荐
- 阿里天池大数据竞赛——口碑商家客流量预测 A2
阿里天池大赛koubeiyuce1 2017年二月份,天池大数据比赛,口碑商家客流量预测,参赛地址及详情: https://tianchi.shuju.aliyun.com/competition/i ...
- 阿里天池大数据之移动推荐算法大赛总结及代码全公布
移动推荐算法比赛已经结束了一个多星期了,现在写一篇文章来回顾一下自己的参赛历程. 首先,对不了解这个比赛的同学们介绍一下这个比赛(引用自官网): 赛题简介 2014年是阿里巴巴集团移动电商业务快速发展 ...
- 9个比赛7进top10,阿里天池大数据竞赛思路分享
向AI转型的程序员都关注了这个号
- 阿里天池大数据竞赛第一名,如何用AI检测肺癌
向AI转型的程序员都关注了这个号
- 阿里天池大数据竞赛(一)用ODPS提取特征
//2015年4月30日 提取特征之所以难,是因为我们写出的sql语句往往只能提取一个特征. 而在ODPS上却不一样,一条语句可以提取很多特征. 如提取最近1.2.3.4天四种行为的数量 重点是dec ...
- 新人 天池大数据初涉水
天池精准医疗大赛--人工智能辅助糖尿病遗传风险预测 一直想做一个天池大数据方面的比赛,以前一直没时间,正逢糖尿病风险预测比赛,阿里举办的,课题比较喜欢,哈哈 进入天池大数据竞赛中心,就可以看到相关信息 ...
- 阿里云天池大数据:【入门】精灵宝可梦数据集分析
目的 学习,实践,不同机器学习算法 使用的包及安装 pip install numpy pip install Pandas 数据获取 阿里云天池大数据竞赛官网获取 莫某 引入包 import pan ...
- 天池大数据竞赛第一名,上海交通大学人工智能实验室如何用AI定位肺结节
癌症,犹如黑暗中的魔鬼,带给人们恐惧与绝望.而肺癌,在我国作为发病率.死亡率最高的一类癌症,伤害着无数家庭.在我国每年都有近60万人死于肺癌.然而,癌症的死亡率与首次发现癌症的时期紧密相关,早期肺结节 ...
- 漫谈阿里那些大数据技术,大数据学习者必看
目前人人都在谈大数据,谈DT时代,但是,大数据是什么,每个人都有自己的一个看法,好比盲人摸象,每个都认为自己摸到是真正的大象.我也担心我所看到的,只是大数据的冰山一角,毕竟,将引领整个人类下一次变革的 ...
最新文章
- Jfinal集成Spring插件
- php钩子是啥意思,php中的钩子理解及应用实例分析
- mail发送的内容显示为附件的解决办法
- 【转】Windows Azure的账户体系
- Python之数据重塑——【stack()方法和unstack()方法、pivot()方法】
- jQuery源码分析系列:.domManip() .buildFragment() .clean()
- python get请求带参数_python_request的安装及模拟json的post请求及带参数的get请求
- 单片机之串行通信接口遇到的问题
- CEF与JavaScript交互读取电脑信息
- 【雷达通信】基于matlab线性调频(LFM)脉冲压缩雷达仿真【含Matlab源码 283期】
- 《高性能MYSQL》
- 文本转语音通过语音合成标记语言(SSML)改进合成 知识点详解(1)
- 卡方检验详解分析与实例
- 502 java_502 Bad Gateway
- PHP 微信支付 企业支付个人 企业转账个人 企业转零钱
- 拟一维喷管流动的数值解——全亚声速等熵喷管流动的非守恒型CFD解法(MacCormack方法)
- 记录一个傻逼问题- 百度地图接入 鉴权问题
- Studio 3T重置日期,达到重复试用的效果
- 逢7必过或拍7游戏(七的倍数、带7的)用C语言实现
- 公众号榜单 | 2020·6月公众号行业排行榜重磅发布
热门文章
- android指定sqlite路径_android sqlite 存储位置
- linux firmware 框架,学习整理:arm-trusted-firmware
- 微软文本转语音实测记录附php/go调用源码
- 《挖掘管理价值:企业软件项目管理实战》一2.3 需求分析过程
- 41. 如何手动触发全量回收垃圾,如何立即触发垃圾回收
- python爬虫之Scrapy框架,基本介绍使用以及用框架下载图片案例
- 用PC3000和HDD Unlock解笔记本硬盘密码
- 【node】mac系统下升级node版本
- diy 单片机 自动浇花_基于单片机的自动浇花系统
- 基于stm32单片机的台历日历计时器万年历Proteus仿真(源码+仿真+全套资料)