因数据量过大,运行sqoop跑不动或者卡内存,于是通过写脚本分批导入到HDFS,然后再加载到Hive表中。
shell脚本如下:

#!/bin/bash
source /etc/profilehost=127.0.0.1for((i=1; i<=100; i++))
do   start=$(((${i} - 1) * 100000 + 1))end=$((${i} * 100000))sql="select person_id,capture_time,write_time,capture_resource_id,major_capture_image_url,minor_capture_image_url,sex,age,orientation,glasses,knapsack, bag,messenger_bag,shoulder_bag,umbrella,hair,hat,mask,upper_color,upper_type,upper_texture,bottom_color,bottom_type,trolley_case,barrow,baby,feature_type,feature_code from big_data.pedestrian_sm where person_id>=${start} and person_id<=${end} and \$CONDITIONS";  sqoop import --connect jdbc:mysql://${host}:3306/big_data \--username root \--password 123456 \--query "${sql}" \--fields-terminated-by '\001' \--delete-target-dir \--target-dir hdfs://hsmaster:9000/tmp/big_data/pedestrian_sm/${start}-${end}/ \--split-by person_id \-m 8echo Sqoop import from: ${start} to: ${end} success....................................hive -e "use big_data;load data inpath 'hdfs://master:9000/tmp/big_data/pedestrian_sm/${start}-${end}' into table big_data.pedestrian_sm;"echo Hive load from: ${start}-${end} success....................................done

Sqoop分批导入Mysql上亿条数据的表到HDFS相关推荐

  1. 如何给mysql表添加百万条数据_给mysql一百万条数据的表添加索引

    直接alter table add index 添加索引,执行一个小时没反应,并且会导致锁表:故放弃该办法,最终解决办法如下: 一.打开mysql 命令行客户端 这里我们那可以看到导出的数据文件所存放 ...

  2. Mysql如何快速制造千万级上亿条数据?

    大前提 首先确保当前表中至少有一条数据. 思路 对表中数据进行指数型增加,n的2,3,4,-,x次方的递增. 命令:INSERT INTO 表名(字段1,字段2,-,字段n) SELECT (字段1, ...

  3. sqluldr2 完美导出 ORACLE上亿条数据

    linux下配置 oracle数据导出工具sqluldr2 由于ORACLE 不支持大批量大规模的数据导入导出,当需要对数据库中的大量的表和数据进行备份时,就必须借助中间工具来对数据进行导出操作: 尝 ...

  4. mysql 1亿条数据建索引时间_单表 13 亿记录创建索引需要多长时间?

    试了.瓶颈在磁盘的情况下,用并行 copy 或者 直接 copy 时间差别不大. at 30s, row rate 666546.92/sec (period), row rate 666546.92 ...

  5. 上亿条数据,如何比对并发现两个表数据差异

    目录 一.背景 二.分析流程 三.验数方法 3.1 数据量级比对 3.2 一致性比对 3.2.1 勾稽验证+md5方法 3.2.2 暴力比对法 3.3 差异数据发现 四.总结 本文是考拉验数(自动化验 ...

  6. 【华为云技术分享】上亿条数据,如何查询分析简单又高效?

    正值618大促,小张遇到了一个棘手的问题,需要在一周内将公司近1年电商部门的营收和线下门店经营数据进行联合分析. 这将产生哪些数据难题呢? 数据孤岛:电商部门的数据存在数仓A.门店经营收入数据存在数仓 ...

  7. 使用hbase来解决上亿条数据的准实时响应

    使用hbase来解决亿级数据的准实时响应 项目中的app行为日志,用户授权收集的通讯录.通话记录.短信和联系人信息,随着时间的推进,数据量进入亿数据级,千万级的创建索引,来加快查询速度的优化方式,此时 ...

  8. 上亿条数据(GB级)文件去重解决方案

    1.准备待处理的文件 2.随便一个文件都有100000000条数据库,如果直接去重非常麻烦 3.一段php代码解决问题 define('FileIn', $argv[1]); $time_start ...

  9. mysql1000w数据怎么加索引_给mysql一百万条数据的表添加索引

    直接alter table add index 添加索引,执行一个小时没反应,并且会导致锁表:故放弃该办法,最终解决办法如下: 一.打开mysql 命令行客户端 这里我们那可以看到导出的数据文件所存放 ...

最新文章

  1. hadoop3.0 分布式搭建/安装
  2. “好的软件人员一生必看的六十本书”
  3. 《Web应用漏洞侦测与防御:揭秘鲜为人知的攻击手段和防御技术》——导读
  4. php使用Header函数,PHP_AUTH_PW和PHP_AUTH_USER做用户验证及缺点
  5. mysql5.7.17的linux安装,linux下mysql5.7.17最新稳定版本安装教程
  6. matlab寻找向量最小值,matlab – 在排序向量中快速搜索大于x的最小值
  7. 安装杀毒软件是保障计算机安全,安装杀毒软件是保障计算机安全的唯一措施
  8. Nginx + Tomcat Windows下的负载均衡配置
  9. Python图像处理丨OpenCV+Numpy库读取与修改像素
  10. EMQ MQTT云服务器搭建 - 阿里云轻量应用服务器
  11. mootools-1.2.1-core.js在IE中显示不了图像翻页
  12. 计算机操作系统考试习题
  13. 软件工程-第三章-需求分析
  14. 数据挖掘 应用案例集
  15. 手机裁剪圆角图片_Photoshop裁剪圆角图片方法
  16. Android水平仪实训报告,水准仪测量实训报告
  17. 鸿蒙智联 HarmonyOS Connect 设备小艺语音的接入
  18. 阿里、腾讯、网易、极验、顶象滑块验证码识别
  19. 记录:谷歌地图google map api实现基本测距功能
  20. Android公共工具库使用说明文档

热门文章

  1. 今天的收获---实现excel工资单的自动发送
  2. cogs1619. [HEOI2012]采花 x
  3. GooglePlay 发布问题汇总
  4. 用HTML写一个2023跨年动画代码(烟花+自定义文字+背景音乐+雪花+倒计时)
  5. 《Protein Actions Principles and Modeling》-《蛋白质作用原理和建模》中文分享(12)
  6. pythonista检测内容自动点击_Pythonista中文教程:100行代码实现一款远程键盘
  7. 使用Mono.Cecil辅助ASP.NET MVC使用dynamic类型Model
  8. java里面自行车的属性_Java模拟自行车电动车属性调用
  9. 阿里云域名相关操作(购买、解析、备案)
  10. 最新最全论文合集——基于机器学习/深度学习的情绪识别