一、什么是sqoop

  Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 :MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

二、sqoop的特点

  Sqoop中一大亮点就是可以通过hadoop的mapreduce把数据从关系型数据库中导入数据到HDFS。

三、Sqoop import 命令

  将Mysql的jdbc驱动放在/opt/cloudera/parcels/CDH/lib/sqoop/lib目录下。

  如下图:

  

  参考学习网址:

  http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.4-cdh5.1.0/SqoopUserGuide.html

  命令详解:

  1、基本语法

1 $ sqoop import (generic-args) (import-args)$ sqoop-import (generic-args) (import-args)

  2、基本命令

  查看网址:

  http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.4-cdh5.1.0/SqoopUserGuide.html

  中的sqoop import的 Import control arguments

   

  3、案例

  方式一:

  将表rpt_sale_daily中数据导入到HDFS上。

  目标目录为:sqoop/rpt_sale_daily。

sqoop import --connect jdbc:mysql://master:3306/test \
--username root --password 123456 --table rpt_sale_daily \
--columns "dateid,huodong,pv,uv" \
--where "dateid='2015-08-28'" \
--target-dir sqoop/rpt_sale_daily \
-m 1

  如果提示 sqoop/rpt_sale_daily 目录已经存在,执行:

hadoop fs -rmr sqoop/rpt_sale_daily

执行结果:如下图

20条数据成功导入,开始检测吧亲。

执行代码:

hadoop fs -cat sqoop/rpt_sale_daily/part-m-00000

数据如下图:

关系数据库表rpt_sale_daily里面的数据如下:

对比,数据相同,成功导入。

方式二:

通过opt文件的方式传送:

新建test.opt文件:

 1 import
 2 --connect
 3 jdbc:mysql://192.168.0.115:3306/test
 4 --username
 5 root
 6 --password
 7 123456
 8 --table
 9 rpt_sale_daily
10 --columns
11 "id,huodong,pvv,uvv"
12 --where
13 "id='2015-08-28'"
14 --target-dir
15 sqoop/rpt_sale_daily
16 -m 1

执行指令:

sqoop options-file test.opt

执行过程和结果和方式一一样。

转载于:https://www.cnblogs.com/invban/p/5385122.html

Hive学习之七《 Sqoop import 从关系数据库抽取到HDFS》相关推荐

  1. sqoop 导数据从 mysql 到 hdfs,load 进 hive

    sqoop 从 mysql 导数据到 hive 命令: sqoop import --connect 'jdbc:mysql://127.0.0.1:8066/int_vst_wx' --userna ...

  2. sqoop动态分区导入mysql,使用sqoop import从mysql往hive含分区表中导入数据的一些注意事项...

    先看下面这条语句,它实现的功能是将特定日期的数据从mysql表中直接导入hive $ sqoop import \ --connect jdbc:mysql://192.168.xx.xx:3306/ ...

  3. sqoop import 数据同步到hive的用法

    1.sqoop 的通用参数 2.import 的参数 3.第一个同步案例:简单同步 sqoop import --connect jdbc:oracle:thin:@ip:1521/服务名 --use ...

  4. Hive学习笔记【全】

    Hive学习笔记[全] 文章目录 Hive学习笔记[全] 一.Hive简介 1.Hive是什么 2.Hive的架构 3.Hive的数据组织 二.Hive安装 1.环境需求 2.安装Hive 3.启动H ...

  5. 【转】Hive学习路线图

    原文博客出自于:http://blog.fens.me/hadoop-hive-roadmap/ 感谢! Hive学习路线图 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Ha ...

  6. 执行sqoop 用shell_Mysql和Hive之间通过Sqoop进行数据同步

    文章回顾 理论 大数据框架原理简介 大数据发展历程及技术选型 实践 搭建大数据运行环境之一 搭建大数据运行环境之二 本地MAC环境配置 CPU数和内存大小 查看CPU数 sysctl machdep. ...

  7. Mysql和Hive之间通过Sqoop进行数据同步

    文章回顾 理论 大数据框架原理简介 大数据发展历程及技术选型 实践 搭建大数据运行环境之一 搭建大数据运行环境之二 本地MAC环境配置 CPU数和内存大小 查看CPU数 sysctl machdep. ...

  8. 大数据学习之sqoop

    点击下载sqoop:http://mirror.bit.edu.cn/apache/sqoop/ 解压缩:tar -xvf sqoop-1.4.7.bin__hadoop-2.6.0.tar 重命名: ...

  9. Sqoop将MySQL数据导入到HDFS和Hive中

    一.将数据从mysql导入 HDFS sqoop import --connect jdbc:mysql://192.168.76.1:3306/workflow --username root -- ...

最新文章

  1. css3弹性盒子模型之box-flex(--)
  2. 小人脸检测 - Finding Tiny Faces
  3. Springboot-Vue-MybatisPlus 返回给前端的 Long类型数据失去精度怎么办 之 Long类型作为实体类的一个属性
  4. 如何创建newsstand应用程序
  5. Python dict() 函数
  6. 工作373-前端 import与export区别
  7. linux 环境 安装nginx
  8. a=a+b和a+=b的区别
  9. Linux基础之-Bash命令优先级
  10. H.264简单码流分析
  11. 获得执行计划方法三-sql_trace
  12. navicat设置唯一键——unique
  13. 使用vm14安装Linux系统
  14. CAD解决学生版的问题
  15. 结合企业实例谈IT规划过程
  16. 微信开放平台开发第三方授权登陆:微信扫码登录
  17. FFMPEG:SPS和PPS
  18. 《大象--Thinking in UML 第二版》已于近日在当当首发,同时邀请各位加入新浪微博[大象-thinkinginUml群]:http://q.weibo.com/1483929
  19. 在某OC字符串中,搜索指定的某字符串:-rangeOfString:
  20. 电脑c语言跟英语关系大吗,英语和数学不好能学好C语言吗

热门文章

  1. 《多处理器编程的艺术》读书笔记(2)--- 互斥
  2. 企业分布式微服务云SpringCloud SpringBoot mybatis (十一)docker部署spring cloud项目
  3. 设计模式第七讲-责任链模式
  4. docker操作大全
  5. 在IIS上安装 thinkphp的方法
  6. linux怎么关闭iptables linux如何关闭防火墙
  7. 如何把自己打造成技术圈的 papi 酱
  8. ASP.NET WebAPi之断点续传下载(中)
  9. Java TreeMap 源码解析
  10. Asp.Net MVC 自定义的MVC框架(非EF操作数据库)