Sqoop分批导入Mysql上亿条数据的表到HDFS
因数据量过大,运行sqoop跑不动或者卡内存,于是通过写脚本分批导入到HDFS,然后再加载到Hive表中。
shell脚本如下:
#!/bin/bash
source /etc/profilehost=127.0.0.1for((i=1; i<=100; i++))
do start=$(((${i} - 1) * 100000 + 1))end=$((${i} * 100000))sql="select person_id,capture_time,write_time,capture_resource_id,major_capture_image_url,minor_capture_image_url,sex,age,orientation,glasses,knapsack, bag,messenger_bag,shoulder_bag,umbrella,hair,hat,mask,upper_color,upper_type,upper_texture,bottom_color,bottom_type,trolley_case,barrow,baby,feature_type,feature_code from big_data.pedestrian_sm where person_id>=${start} and person_id<=${end} and \$CONDITIONS"; sqoop import --connect jdbc:mysql://${host}:3306/big_data \--username root \--password 123456 \--query "${sql}" \--fields-terminated-by '\001' \--delete-target-dir \--target-dir hdfs://hsmaster:9000/tmp/big_data/pedestrian_sm/${start}-${end}/ \--split-by person_id \-m 8echo Sqoop import from: ${start} to: ${end} success....................................hive -e "use big_data;load data inpath 'hdfs://master:9000/tmp/big_data/pedestrian_sm/${start}-${end}' into table big_data.pedestrian_sm;"echo Hive load from: ${start}-${end} success....................................done
Sqoop分批导入Mysql上亿条数据的表到HDFS相关推荐
- 如何给mysql表添加百万条数据_给mysql一百万条数据的表添加索引
直接alter table add index 添加索引,执行一个小时没反应,并且会导致锁表:故放弃该办法,最终解决办法如下: 一.打开mysql 命令行客户端 这里我们那可以看到导出的数据文件所存放 ...
- Mysql如何快速制造千万级上亿条数据?
大前提 首先确保当前表中至少有一条数据. 思路 对表中数据进行指数型增加,n的2,3,4,-,x次方的递增. 命令:INSERT INTO 表名(字段1,字段2,-,字段n) SELECT (字段1, ...
- sqluldr2 完美导出 ORACLE上亿条数据
linux下配置 oracle数据导出工具sqluldr2 由于ORACLE 不支持大批量大规模的数据导入导出,当需要对数据库中的大量的表和数据进行备份时,就必须借助中间工具来对数据进行导出操作: 尝 ...
- mysql 1亿条数据建索引时间_单表 13 亿记录创建索引需要多长时间?
试了.瓶颈在磁盘的情况下,用并行 copy 或者 直接 copy 时间差别不大. at 30s, row rate 666546.92/sec (period), row rate 666546.92 ...
- 上亿条数据,如何比对并发现两个表数据差异
目录 一.背景 二.分析流程 三.验数方法 3.1 数据量级比对 3.2 一致性比对 3.2.1 勾稽验证+md5方法 3.2.2 暴力比对法 3.3 差异数据发现 四.总结 本文是考拉验数(自动化验 ...
- 【华为云技术分享】上亿条数据,如何查询分析简单又高效?
正值618大促,小张遇到了一个棘手的问题,需要在一周内将公司近1年电商部门的营收和线下门店经营数据进行联合分析. 这将产生哪些数据难题呢? 数据孤岛:电商部门的数据存在数仓A.门店经营收入数据存在数仓 ...
- 使用hbase来解决上亿条数据的准实时响应
使用hbase来解决亿级数据的准实时响应 项目中的app行为日志,用户授权收集的通讯录.通话记录.短信和联系人信息,随着时间的推进,数据量进入亿数据级,千万级的创建索引,来加快查询速度的优化方式,此时 ...
- 上亿条数据(GB级)文件去重解决方案
1.准备待处理的文件 2.随便一个文件都有100000000条数据库,如果直接去重非常麻烦 3.一段php代码解决问题 define('FileIn', $argv[1]); $time_start ...
- mysql1000w数据怎么加索引_给mysql一百万条数据的表添加索引
直接alter table add index 添加索引,执行一个小时没反应,并且会导致锁表:故放弃该办法,最终解决办法如下: 一.打开mysql 命令行客户端 这里我们那可以看到导出的数据文件所存放 ...
最新文章
- hadoop3.0 分布式搭建/安装
- “好的软件人员一生必看的六十本书”
- 《Web应用漏洞侦测与防御:揭秘鲜为人知的攻击手段和防御技术》——导读
- php使用Header函数,PHP_AUTH_PW和PHP_AUTH_USER做用户验证及缺点
- mysql5.7.17的linux安装,linux下mysql5.7.17最新稳定版本安装教程
- matlab寻找向量最小值,matlab – 在排序向量中快速搜索大于x的最小值
- 安装杀毒软件是保障计算机安全,安装杀毒软件是保障计算机安全的唯一措施
- Nginx + Tomcat Windows下的负载均衡配置
- Python图像处理丨OpenCV+Numpy库读取与修改像素
- EMQ MQTT云服务器搭建 - 阿里云轻量应用服务器
- mootools-1.2.1-core.js在IE中显示不了图像翻页
- 计算机操作系统考试习题
- 软件工程-第三章-需求分析
- 数据挖掘 应用案例集
- 手机裁剪圆角图片_Photoshop裁剪圆角图片方法
- Android水平仪实训报告,水准仪测量实训报告
- 鸿蒙智联 HarmonyOS Connect 设备小艺语音的接入
- 阿里、腾讯、网易、极验、顶象滑块验证码识别
- 记录:谷歌地图google map api实现基本测距功能
- Android公共工具库使用说明文档
热门文章
- 今天的收获---实现excel工资单的自动发送
- cogs1619. [HEOI2012]采花 x
- GooglePlay 发布问题汇总
- 用HTML写一个2023跨年动画代码(烟花+自定义文字+背景音乐+雪花+倒计时)
- 《Protein Actions Principles and Modeling》-《蛋白质作用原理和建模》中文分享(12)
- pythonista检测内容自动点击_Pythonista中文教程:100行代码实现一款远程键盘
- 使用Mono.Cecil辅助ASP.NET MVC使用dynamic类型Model
- java里面自行车的属性_Java模拟自行车电动车属性调用
- 阿里云域名相关操作(购买、解析、备案)
- 最新最全论文合集——基于机器学习/深度学习的情绪识别