ETL - ETL工具介绍
上篇文章我们介绍了ETL的概念和ETL的整个过程 。那么今天我们给大家介绍一下ETL的常用工具:DataX、Datastage、Informatica、Kettle、DataPipeline。
为什么要使用ETL工具?
实际生产环境中我们的数据源可能是不同的数据库或者文件,这时候需要我们先把文件整理成统一的格式再做处理这样的过程要用代码实现显然有些麻烦。
但数据来自不同的物理机,如果我们用SQL语句去处理的话,就显得特别吃力,开销也会很大。
使用存储过程处理海量数据会占用大量数据库资源,导致数据资源不足,影响数据库性能。
对于这些问题,我们可以通过使用ETL工具去解决。
部分工具支持多种异构数据的连接。
图形化的界面,操作十分方便简单。
处理hi阿来那个海量数据快,流程清晰。
ETL工具介绍
阿里开源软件:DataX
DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。
Kettle开源软件:水壶(中文名)
Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,扩展性好,数据抽取高效稳定。主从结构,没有高可用。不支持数据的实时同步,也不支持断点续传。
IBM公司商业软件:Datastage
最专业的商业ETL工具,价格较贵,但是大数据量下处理速度也能保持较快的处理速度和稳定性。实时监控做的也很好,可以看到数据抽取的情况,运行到哪一步,很直观。售后技术支持强大。
商业软件:Informatica
专业的ETL工具,价格上比Datastage便宜一点,需要服务器和客户端的安装,处理速度上和Datastage相当。分布式部署,支持实时,但是效率不高。技术支持主要在美国,所以国内用的较少。
国内:DataPipeline
国内收费工具,相比DataX,DataPipeline有可视化的过程监控,提供多样化的图标,辅助运维,故障问题实时预警。而DataX需要依赖工具日志定位故障问题。支持实时性,DataX则是定时的。支持断点续传,DataX则不支持。架构上也是分布式的,支持水平扩展。
相比那些收费的ETL工具,我们的开源软件也有自己的优势:学习资料多、扩展性好、不收费。所以,实际生产环境下,需要我们根据实际项目选择适合的合适的工具。
ETL - ETL工具介绍相关推荐
- ETL常用的三种工具介绍及对比 Datastage,Informatica 和 Kettle
大家好,我是梦想家 Alex ~ ETL是数据仓库中的非常重要的一环,是承前启后的必要的一步.ETL负责将分布的.异构数据源中的数据如关系数据.平面数据文件等抽取到临时中间层后进行清洗.转换.集成,最 ...
- ETL常用的三种工具介绍及对比Datastage,Informatica
ETL是数据仓库中的非常重要的一环,是承前启后的必要的一步.ETL负责将分布的.异构数据源中的数据如关系数据.平面数据文件等抽取到临时中间层后进行清洗.转换.集成,最后加载到数据仓库或数据集市中,成为 ...
- 《Kettle构建Hadoop ETL系统实践》大数据ETL开发工具选择Kettle的理由
ETL一词是Extract.Transform.Load三个英文单词的首字母缩写,中文意为抽取.转换.装载.ETL是建立数据仓库最重要的处理过程,也是最能体现工作量的环节,一般会占到整个数据仓库项目工 ...
- etl spring_ETL AUTOMATION介绍
/**********************************/目录:第一部分:ETL Automation简介第二部分:ETL Automation架构第三部分:ETL Automation ...
- kettle工具介绍和基本使用
kettle工具介绍和基本使用 Kettle简介 Kettle是一个开源的ETL工具,所有基本数据抽取.转换.加载,它都可以 Kettle是基于Java开发的,是开源免费的 有点:开源免费,直接网上下 ...
- 软件包管理 之 软件在线升级更新yum 图形工具介绍
作者:北南南北 来自:LinuxSir.Org 提要:yum 是Fedora/Redhat 软件包管理工具,包括文本命令行模式和图形模式:图形模式的yum也是基于文本模式的:目前yum图形前端程序主要 ...
- IDEA IntelliJ 开发工具介绍
IntelliJ IDEA 开发Java的IDE 官网:https://www.jetbrains.com/ 下面是该工具介绍,有兴趣的可以看下,基本一堆废话: 集成开发环境(IDE,Integrat ...
- postman 接口测试工具介绍
postman 接口测试工具介绍 https://www.cnblogs.com/fly_dragon/p/9186745.html
- Java代码缺陷自动分析工具介绍
Java代码缺陷自动分析工具介绍 ...
最新文章
- [BZOJ1857][Scoi2010]传送带
- 了解下SOAP Header 元素
- matlab 图像操作函数的详解
- WWW 2022 | 弯道超车:基于纯MLP架构的序列推荐模型
- boost::phoenix::function用法的测试程序
- OpenCV使用基本算法检测颜色检查器
- jzoj3832-在哪里建酿酒厂【指针】
- 我来谈谈小程序和工作方向
- java ee jstl_Java EE之JSTL(下)
- php接收get参数false是字符串,php怎么接收url参数
- eve服务器维护后怪物刷新,【独家披露】EVE异常空间怪物那些事儿(一)普通异常...
- 蓝桥杯 基础练习 矩阵乘法
- 网站被攻击拿下—只因为程序员一个文件上传功能没写好
- java成员变量除了方法传递_JAVA类与对象(四)----成员变量与局部变量 、成员方法、构造方法...
- ndk中杀线程的办法
- 计算平均成绩,科目数未知
- MicroSip客户端编译、运行
- 解决系统任务管理器已经被管理员停用
- 科大奥锐密立根油滴实验数据_密立根油滴实验原始数据记录表
- ever 逾期_4ever的完整形式是什么?
热门文章
- 全自动涂料检测工作站
- 运动轨迹 php,JS做出抛物线运动轨迹
- 使用ident认证方式连接postgres数据库
- python 实现算术均值滤波,几何均值滤波,谐波均值滤波,逆谐波均值滤波
- Flutter 基础布局Widgets之Expanded详解
- P2386 放苹果(排列组合问题)
- 雨果vs杰基尔:静态网站生成器主题的史诗般的战斗
- Xcode最新版下载国内网盘下载 Xcode 6.2|Xocde 6.1|Xcode 6.1.1|Xcode 6.3 beta
- 聚集索引设计注意事项(第三次)
- 一季度海信击败TCL居于第三名,互联网电视企业跌幅最大