hive中要做的事

创建数据库

create database ods;、

–设置一些配置
alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;
alter table TABLE_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8;

– 修改分区字段注解
alter table PARTITION_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8 ;
alter table PARTITION_KEYS modify column PKEY_COMMENT varchar(4000) character set utf8;

– 修改索引注解
alter table INDEX_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8;

– 这个参数表示在写入的时候开启压缩
set hive.exec.orc.compression.strategy=COMPRESSION;

创建表

第一张表
CREATE EXTERNAL TABLE IF NOT EXISTS itcast_ods.web_chat_ems (
id INT comment ‘主键’,
create_date_time STRING comment ‘数据创建时间’,
session_id STRING comment ‘七陌sessionId’,
sid STRING comment ‘访客id’,
create_time STRING comment ‘会话创建时间’,
seo_source STRING comment ‘搜索来源’,
seo_keywords STRING comment ‘关键字’,
ip STRING comment ‘IP地址’,
area STRING comment ‘地域’,
country STRING comment ‘所在国家’,
province STRING comment ‘省’,
city STRING comment ‘城市’,
origin_channel STRING comment ‘投放渠道’,
user_match STRING comment ‘所属坐席’,
manual_time STRING comment ‘人工开始时间’,
begin_time STRING comment '坐席领取时间 ',
end_time STRING comment ‘会话结束时间’,
last_customer_msg_time_stamp STRING comment ‘客户最后一条消息的时间’,
last_agent_msg_time_stamp STRING comment ‘坐席最后一下回复的时间’,
reply_msg_count INT comment ‘客服回复消息数’,
msg_count INT comment ‘客户发送消息数’,
browser_name STRING comment ‘浏览器名称’,
os_info STRING comment ‘系统名称’
)comment ‘访问会话信息表’
PARTITIONED BY(start_time STRING) – 用于指定抽取表时间
ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘\t’
stored as orc
–设置文件放在那里
location ‘/user/hive/warehouse/itcast_ods.db/web_chat_ems_ods’
–设置文件已什么形式压缩
TBLPROPERTIES (‘orc.compress’=‘ZLIB’);
---------------------------------第二张表
CREATE EXTERNAL TABLE IF NOT EXISTS itcast_ods.web_chat_text_ems (
id INT COMMENT ‘主键来自MySQL’,
referrer STRING comment ‘上级来源页面’,
from_url STRING comment ‘会话来源页面’,
landing_page_url STRING comment ‘访客着陆页面’,
url_title STRING comment ‘咨询页面title’,
platform_description STRING comment ‘客户平台信息’,
other_params STRING comment ‘扩展字段中数据’,
history STRING comment ‘历史访问记录’
) comment ‘EMS-PV测试表’
PARTITIONED BY(start_time STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘\t’
stored as orc
location ‘/user/hive/warehouse/itcast_ods.db/web_chat_text_ems_ods’
TBLPROPERTIES (‘orc.compress’=‘ZLIB’);

导入ODS层数据

导入 web_chat_text_ems表

sqoop import
–connect jdbc:mysql://你自己的ip:3306/nev
–username 你自己的用户 --password 你自己用户的密码
–query “SELECT
id,referrer,from_url,landing_page_url,
url_title,platform_description,
other_params,history, CURRENT_DATE() AS start_time
FROM web_chat_text_ems_2019_07 where 1=1 and $CONDITIONS”
–fields-terminated-by ‘\t’
–hcatalog-database hive数据库的名称
–hcatalog-table web_chat_text_ems
-m 几个mapreduce
–split-by id

导入web_chat_ems表

sqoop import
–connect jdbc:mysql://192.168.52.150:3306/nev
–username root --password 123456
–query “SELECT
id,create_date_time,session_id,sid,create_time,
seo_source,seo_keywords,ip,area,country,province,
city,origin_channel,user AS user_match,manual_time,
begin_time,end_time,last_customer_msg_time_stamp,
last_agent_msg_time_stamp,reply_msg_count,msg_count,
browser_name,os_info, CURRENT_DATE() AS start_time
FROM web_chat_ems_2019_07 where 1=1 and $CONDITIONS”
–fields-terminated-by ‘\t’
–hcatalog-database ods
–hcatalog-table web_chat_ems
-m 3
–split-by id

ods层就建好了

clouderaManager----知行教育大数据分析平台(mysql---------ods)相关推荐

  1. 知行教育大数据分析平台之基于Spark架构

    1 介绍一下你们的项目 教育数仓解决的问题: 首先,受互联网+概念影响,越来越多的教育平台机构涌现,在线教育发展火热.但是由于信息的共享利用不充分,导致企业多年积累了大量数据,而因为信息孤岛的问题,一 ...

  2. clouderaManager--------------知行教育大数据分析平台(三)

    维度分析 数据仓库中的数据分析处理,其实就是对数据按照维度进行分析 维度 大白话:以不同的视角去看待数据 维度是事务的特征,如颜色.区域.时间等,可以根据不同的维度来对指标进行分析对比. 维度也可以分 ...

  3. 知行大数据分析平台需求说明

    知行大数据分析平台 需求规格说明书 文件变更记录 版本号 日期 变更人 变更摘要 批准人 V0.6 2019-12-30 XX 制定<需求规格说明书> V1.0 2019-01-02 XX ...

  4. mmTrix大数据分析平台构建实录--转

    在数据分析中,有超过90%数据都是来自于非结构化数据,其中大部分的是日志,如运维.安全审计.用户访问数据以及业务数据等,但随着互联网快速的发展,数据规模也是水涨船高,从早前的GB级到现在的TB级,甚至 ...

  5. 超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

    简介: 5分钟读懂 Databricks 数据洞察 ~ 更多详细信息可登录 Databricks 数据洞察 产品链接:https://www.aliyun.com/product/bigdata/sp ...

  6. 结构化大数据分析平台设计

    前言 任何线上系统都离不开数据,有些数据是业务系统自身需要的,例如系统的账号,密码,页面展示的内容等.有些数据是业务系统或者用户实时产生的,例如业务系统的日志,用户浏览访问的记录,系统的购买订单,支付 ...

  7. 【金猿产品展】Smartbi一站式大数据分析平台——一个平台、所有数据、无限可能。...

    ‍ 思迈特软件产品 本项目由思迈特软件投递并参与"数据猿年度金猿策划活动--2022大数据产业创新服务产品榜单及奖项"评选. ‍数据智能产业创新服务媒体 --聚焦数智 · 改变商业 ...

  8. 基于Tempo大数据分析平台的智慧博物馆大数据中心

    一. 项目背景 广义上来说,博物馆包括博物馆.文化馆.图书馆.美术馆.科技馆等各种公共服务场馆.随着"文化自信""文化强国"的国策,公共文化服务成为一个城市的综 ...

  9. 电商大数据分析平台项目(一)项目框架

    一.项目简介 这段时间自己从网上找了一个项目课程,学着做了一个电商大数据分析平台,不过较为简陋,知识作学习用. 项目环境:windows10+hadoop2.7.7+hbase2.1.0+flume1 ...

最新文章

  1. Get started with ros -- 1
  2. request.getParameter如何获取radio的属性值
  3. lua 判断为空的逻辑
  4. TCP-IP详解:重传机制
  5. React v15.0 正式版发布
  6. python升级pip在哪儿打开_Linux下升级python和安装pip的详解
  7. ssl1614-医院设置【图论,最短路】
  8. 关闭保护火狐浏览器的保护与多余的加载项
  9. python怎样定义数组_终于知道python如何定义二维数组
  10. 环境和社会风险分类c类_工程风险等级划分标准
  11. ODBC连接数据库使用动态密码
  12. IIS服务器安全配置[摘]
  13. html手抄报怎么制作软件,电子手抄报制作软件
  14. GDAL/OGR/OSR 坐标系ERROR 4: Unable to open EPSG support file gcs.csv osr.SpatialReference()
  15. PX4源码分析2:飞控系统控制流程简述
  16. 并查集之LeetCode1579. 保证图可完全遍历
  17. Python:猜数(number guess)
  18. abc计算机发明英语翻译,2017年6月英语六级翻译每日一练:四大发明
  19. Android 判断当前网络 wifi 3gwap(cmwap) 3gnet(cmnet)
  20. 利用python进行微信好友分析

热门文章

  1. 简要聊聊我对大小公司的主观感受
  2. Netty入门——基于NIO实现机器客服案例
  3. OpenWrt的一些心得
  4. Moq——.NET的Mocking库
  5. SPSS通过相同的ID(或字段)合并两个文件
  6. 第14集 关于库卡机器人程序与子程序举例介绍
  7. 智云通CRM:如何每次拜访都让客户乐于接见?
  8. visual studio项目 .sln .vcxproj .vcproj 文件的区别和关系
  9. 环境设计相关html,环境艺术设计专业需要什么样配置的电脑?
  10. 钉钉老版本下载3.31_钉钉旧版最新版_钉钉旧版官方下载_钉钉旧版PC版-华军软件园...