ETL_Kettle简介

kettle 是纯 java 开发,开源的 ETL工具,用于数据库间的数据迁移 。
Kettle中有两种脚本文件,transformation和job。
transformation完成针对数据的基础转换,job则完成整个工作流的控制.

Kettle下载地址:
https://sourceforge.net/projects/pentaho/files/Data%20Integration/

Kettle启动
Kettle是绿色软件, 解压缩到任意本地路径, 双击Spoon.bat 就能启动 Kettle 。

Kettle使用要点:
- Kettle组件类型基本说明transformation/job
- Kettle大数据组件的应用说明
- 基于表对表的同步
- 基于表到hdfs的同步
- 基于文件到hdfs的同步
- 基于表到hive的同步
- 基于表到hbase的同步
- 基于文件到hbase的同步
- 基于表到phoenix的同步
- Kettle中sqoop的调用
- Kettle中JavaScript的基本应用
- 作业调用作业及转换**

Kettle组件类型基本说明transformation/job

  1. Kettle设计好后可产出两种脚本文件,transformation(转换,后缀为.ktr)和job(作业,后缀为.kjb),这两类脚本都是xml格式。
  2. Transformation完成针对数据的基础转换,作用和地位类似于DataStage中的Job。
  3. Job则完成整个工作流的控制,作用和地位类似DataStage中的Sequence。
    注:一般程序使用job开发即可,但针对大数据相关程序可以使用Transformation开发,然后使用job去封装。
  4. 作业,可串行执行或并行执行。 串行执行,一条线,按步先后执行;两条线,则先执行完其中一条线再执行另一条线。并行执行,两条线同时执行,执行结果,true(成功)或false(失败),根据执行结果可控制流程走向:
  5. 转换,一开始,所有步骤同时运行,记录从最前端的步骤向后传递,传递到相应步骤则记录被该步骤做相应处理,处理完成再往后传递。(如果不做连接,优先执行SQL)

参考文章:
【kettle 教程(一):简介及入门】https://blog.csdn.net/qqfo24/article/details/82190535

ETL_Kettle简介相关推荐

  1. etcd 笔记(01)— etcd 简介、特点、应用场景、常用术语、分布式 CAP 理论、分布式原理

    1. etcd 简介 etcd 官网定义: A highly-available key value store for shared configuration and service discov ...

  2. Docker学习(一)-----Docker简介与安装

    一.Docker介绍 1.1什么是docker Docker是一个开源的应用容器引擎,基于Go语言并遵从Apache2.0协议开源 Docker可以让开发者打包他们的应用以及依赖包到一个轻量级,可移植 ...

  3. 【Spring】框架简介

    [Spring]框架简介 Spring是什么 Spring是分层的Java SE/EE应用full-stack轻量级开源框架,以IOC(Inverse Of Control:反转控制)和AOP(Asp ...

  4. TensorRT简介

    TensorRT 介绍 引用:https://arleyzhang.github.io/articles/7f4b25ce/ 1 简介 TensorRT是一个高性能的深度学习推理(Inference) ...

  5. 谷粒商城学习笔记——第一期:项目简介

    一.项目简介 1. 项目背景 市面上有5种常见的电商模式 B2B.B2C.C2B.C2C.O2O B2B 模式(Business to Business),是指商家和商家建立的商业关系.如阿里巴巴 B ...

  6. 通俗易懂的Go协程的引入及GMP模型简介

    本文根据Golang深入理解GPM模型加之自己的理解整理而来 Go协程的引入及GMP模型 一.协程的由来 1. 单进程操作系统 2. 多线程/多进程操作系统 3. 引入协程 二.golang对协程的处 ...

  7. Linux 交叉编译简介

    Linux 交叉编译简介 主机,目标,交叉编译器 主机与目标 编译器是将源代码转换为可执行代码的程序.像所有程序一样,编译器运行在特定类型的计算机上,输出的新程序也运行在特定类型的计算机上. 运行编译 ...

  8. TVM Operator Inventory (TOPI)简介

    TOPI简介 这是 TVM Operator Inventory (TOPI) 的介绍.TOPI 提供了比 TVM 具有更高抽象的 numpy 风格的,通用操作和调度.TOPI 如何在 TVM 中,编 ...

  9. 计算机视觉系列最新论文(附简介)

    计算机视觉系列最新论文(附简介) 目标检测 1. 综述:深度域适应目标检测标题:Deep Domain Adaptive Object Detection: a Survey作者:Wanyi Li, ...

最新文章

  1. matlab图片插值数据_使用双线性插值法放大图像(matlab实现)
  2. 死锁产生原因-竞争临时资源
  3. grs matlab公式,[转载]matlab中Max的用法(转)
  4. 技术人应该如何投资时间?
  5. java 添加等待时间_Java中线程等待特定时间的最有效方法 - java
  6. MATLAB利用Copula函数进行频率分析
  7. redis安装教程(简明扼要,一看就懂)
  8. ArchLinux 主题美化
  9. 微信小程序 - 实现简单登录和个人信息页面
  10. 植物大战僵尸音乐计算机简谱,植物大战僵尸主题曲简谱|植物大战僵尸主题曲:Zombies on Your Lawn...
  11. PS绘画蒙板使用方法
  12. 一些学习编程的优质网站
  13. graphpad7.04多组比较p值_GraphPad中国官网 - Prism 8 统计指南 - 对P值的更多错误解读...
  14. c语言程序设计年历显示,C语言程序设计报告《万年历》.doc
  15. TMC260系列电机驱动芯片应用介绍
  16. 2018年4月16日微众银行 INT数据挖掘笔试
  17. 2016年,这些邮件设计将颠覆营销圈!
  18. Python中私有变量和私有方法芳
  19. 【微信小程序】微信小程序的接口调入 获取太阳码 根据返回值的类型进行接收,微信接口可能直接返回图片,也可能返回一个错误信息的json,同时兼容处理这两种情况
  20. 设计师:设计师知识储备之欧式雕花家具(欧式雕花家具-圆雕、透雕、浮雕、平刻)之详细攻略

热门文章

  1. JVM整体知识体系深度学习__JVM与Java体系结构【持续更新】
  2. Linux Running State Process .so、code Injection Technology
  3. modelsim 仿真xilinx (vivado2018.2)原语 方法及问题记录
  4. 乐享集团吹响兴趣电商出海集结号
  5. 上市公司股吧帖子爬取
  6. 基于图的异常检测算法——概述
  7. Spring框架中常用的设计模式详解
  8. Bubble Cup 14 - Finals Online Mirror (Unrated, ICPC Rules, Teams Preferred, Div. 2) E. Array Game
  9. AI设计“超级食物”:可能有助于预防癌症!
  10. 正大国际期货召主:北美票房|《变形金刚7》开画好于预期