SQOOP的描述

SQOOP是用于对数据进行导入导出的。

(1)把MySQL、Oracle等数据库中的数据导入到HDFS、Hive、HBase中

(2)把HDFS、Hive、HBase中的数据导出到MySQL、Oracle等数据库中

SQOOP的安装

解压缩sqoop的tar.gz文件,设置环境变量(source /etc/profile)

把数据从mysql导入到hdfs(默认是/user/<username>)中

1.  复制mysql的驱动到sqoop目录下的lib中

2.  执行导入命令

sqoopimport --connect jdbc:mysql://hadoop0:3306/hive --username root --password admin --table TBLS --fields-terminated-by'\t'  --null-string '**'  -m 1 --append --hive-import

说明:

ü  执行import命令将mysql的hive数据库中的TBLS表导入到hdfs中(默认目录user/root)

ü  --fields-terminated-by '\t' :表示导入到hdfs中以’\t’进行切割

ü  --null-string ‘**’:表示当字段为null时用’**’替换

ü  -m1:表示只指定一个map任务(map任务的个数关系生成文件的个数)

ü  --append:表示如果执行多次则进行追加(否则多次执行则会报already exsist)

ü  --hive-import:表示导入到hive中(如果只需导入到hdfs中则可不写)

ü

sqoopimport --connect jdbc:mysql://hadoop0:3306/hive --username root --password admin --table TBLS --fields-terminated-by'\t'  --null-string '**'  -m 1 --append --hive-import  --check-column'TBL_ID' --incremental append --last-value 6

说明:

ü  执行import命令将mysql的hive数据库中的TBLS表导入到hdfs中(默认目录user/root)

ü  --check-column 'TBL_ID':表示检查’TBL_ID‘列

ü  --incremental:表示增量

ü  --last-value 6:表示开始追加导入的列从第6列开始(不包含第6列)

ü  --check-column 'TBL_ID' --incremental append --last-value 6:整体解释为 检查导入的主键列‘TBL_ID’当该列的值(增量)大于6时,可以进行追加导入,否则不进行导入

(这样做的目的:当第一次导入数据时主键列的最后一个值为6,第二次导入时我们不想导入所有的数据而是后来增加的数据,所以我们可以接着上一次的数据导入,即不导入重复数据)

把数据从hdfs导出到mysql中

sqoop export --connect jdbc:mysql://hadoop0:3306/hive  --username root --password admin --table ids--fields-terminated-by '\t' --export-dir '/ids'

说明:

--export-dir '/ids':指定要导出到Mysql的文件目录

设置为作业,运行作业

sqoop job --create myjob -- import --connectjdbc:mysql://hadoop0:3306/hive --username root --password admin --table TBLS --fields-terminated-by'\t'  --null-string '**'  -m 1 --append --hive-import

说明:

ü  设置为作业后可以直接执行作业,执行作业即执行该命令

ü  执行作业的命令:sqoopjob  –exec  myjob

ü  查看作业已创建的Job作业:sqoop job –list

注:运行作业第一次需要输入密码,输入密码后即可执行,然后修改sqoop/conf/sqoop-site.xml中的sqoop.metastore.client.record.password(去掉注释即可)

以后运行就不需要在此输入密码了

sqoop简介与安装配置相关推荐

  1. 【①MySQL】浅谈数据库系统:MySQL的简介与安装配置

    前言 欢迎来到小K的MySQL专栏,本节将为大家带来MySQL的简介与安装配置的详细讲解~ 目录 前言 一.数据库系统概述 数据(Data) 数据库(Database) 数据库管理系统(Databas ...

  2. 【赵强老师】Redis简介和安装配置

    先看视频. [赵强老师]Redis简介和安装配置 什么是Redis? Redis是一个key-value存储系统.和Memcached类似,它支持存储的value类型相对更多,包括string(字符串 ...

  3. Git版本SVN工具简介与安装配置及使用

    文章目录 SVN介绍 一.使用原理 二.安装配置SVN 1.安装Git 2.下载SVN 总结 SVN介绍 SVN是Subversion的简称,是一个开放源代码的版本控制系统,相较于RCS.CVS,它采 ...

  4. Python学习笔记一简介及安装配置

    Python学习笔记一 参考教程:廖雪峰官网https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e54 ...

  5. JDK简介及安装配置|史上最全详细版

    yanze v3.0 20200328 一.Java概述 Java创始人是詹姆斯·高斯林(James Gosling),他在1977年获得了加拿大卡尔加里大学计算机科学学士学位,1983年获得了美国卡 ...

  6. ETL工具Kettle简介和安装配置基本使用

    什么是Kettle Kettle是一款国外开源的ETL工具,纯java编写,可以在Window.Linux.Unix上运行,绿色无需安装,数据抽取高效稳定. Kettle 中文名称叫水壶,该项目的主程 ...

  7. Tez的简介以及安装配置

    Tez简介 Tez是一个Hive的运行引擎,由于没有中间存盘的过程,性能优于MR.Tez可以将多个依赖作业转换成一个作业,这样只需要写一次HDFS,中间节点少,提高作业的计算性能. Tez的安装步骤 ...

  8. ZBar简介及安装配置流程 | 2021SC@SDUSC

    2021SC@SDUSC 目录 Zbar简介 配置流程 环境 下载ZBer库文件 配置环境变量 VS配置 测试代码 总结 Zbar简介 zbar算法是现在网上开源的条形码,二维码检测算法,算法可识别大 ...

  9. hive简介以及安装配置

    Hive简介 1.1在hadoop生态圈中属于数据仓库的角色.他能够管理hadoop中的数据,同时可以查询hadoop中的数据. 本质上讲,hive是一个SQL解析引擎.Hive可以把SQL查询转换为 ...

最新文章

  1. Linux下解决“shutdown: command not found“问题
  2. Java的this、super和final关键字
  3. Navicat for MySQL 连接 Mysql 8.0.11 出现1251- Client does not support authentication protocol 错误
  4. oracle 韩思捷_ORACLE数据库技术实用详解:教你如何成为10g OCP
  5. CSS中的特殊的选择器
  6. iphone-common-codes-ccteam源代码 CCUINavigationBar.h
  7. 十二.激光SLAM框架学习之livox-loam框架安装和跑数据集
  8. ZOJ 3502 Contest 状态压缩 概率 DP
  9. asc 点阵数组和计算认识
  10. matlab生成流程图,matlab做流程图
  11. HUAWEI 机试题:相对开音节
  12. 美学心得(第二百四十一集) 罗国正
  13. win11蓝牙连接耳机有回音的问题
  14. RJ45接头 与 RJ48 接头
  15. 文件管理器和FTP客户端:ForkLift for Mac
  16. 计网实验七:应用层协议服务配置(DNS,HTTP,FTP)
  17. 用sqlcipher对已有的SQLite数据库加密
  18. Spring Cloud Alibaba - 27 Gateway源码解析
  19. matlab中ct值直方图,【CT值与灰度值的总结】
  20. 商业分析_第一篇 价格弹性

热门文章

  1. golang sdk后端怎么用_Python比Golang慢多少?实际上两者差异并不大
  2. linux nodejs环境部署,Linux 部署Nodejs 环境 (自学记录篇)
  3. 几个 PHP 的“魔术常量”
  4. 微信支付 企业转账 小程序发红包 提现 发红包 企业支付等遇到的问题
  5. Python - 利用pip管理包
  6. DLT(Diagnostic Log and Trace)嵌入式系统程序运行记录
  7. 通过Java Api与HBase交互(转)
  8. javascript数组中数字和非数字下标的区别
  9. DELL6224交换机基本配置命令明细
  10. 【收集】6410 开发板(Real6410/TE6410/OK6410/mini6410/micro6410/FL6410)wince问题