可视化ETL工具Kettle概念、安装及实战案例
文章目录
- 一、数据仓库与ETL
- 1、数据仓库
- 2、ETL
- 3、Kettle
- 二、Kettle安装启动
- 三、Kettle使用
- 1、转换
- 2、作业
- 四、实战案例
- 1、需求
- 2、分析
- 3、实现
一、数据仓库与ETL
1、数据仓库
- 本质 : 专门针对于数据存储模型
- 实现:MySQL、Oracle、Hive…
- 应用:专门用于实现将各种各样数据进行统一化规范化的数据存储,为所有数据应用提供数据
- 数据分析
- 数据挖掘
- 用户画像
- 推荐系统
- 风控系统
- 特点
- 本身不产生数据
- 本身也不使用数据
- 用于实现复杂数据的存储
- 与数据库区别
- 数据库 : 一般用于支撑业务数据的存储
- 网站后台∶用户数据、商品数据、订单数据。
- 数据仓库:专门为数据数据处理提供数据的
- 业务数据
- 用户行为
- 爬虫数据
- 第三方数据
- 日志数据
- 数据库 : 一般用于支撑业务数据的存储
- 问题
- 数据种类非常的多,每一种数据的内容或者格式都不一样
- 有结构化、有非结构化
- 有合法的,有非法的
- 有需要的,有不需要的
- MySQL是一个专门用于存储结构化数据的数据存储工具
- 结构化
- 需要
- 合法 - 如何将各种各样的数据存储在MYSQL中?
- 解决
- 数据产生以后,不能直接放入数据仓库【MySQL】中存储
- 对原始数据进行一步预处理,将需要的、合法的数据放入数据仓库中。
- 这一步预处理:ETL【数据清洗】
- 解决
- 数据种类非常的多,每一种数据的内容或者格式都不一样
2、ETL
功能 : 实现数据的预处理,数据清洗过程,将原始数据经过ETL处理变成想要的数据,进行下一步的应用
实现
抽取∶读取需要处理的原始数据。
转换︰将原始数据转换为目标数据
- 过滤∶将不需要的数据过滤掉
- 补全 : 将需要用到的数据补全
- 转换∶原始数据的格式不是我们想要的格式,转换为想要的格式
加载︰将处理好的目标数据放入数据仓库中
3、Kettle
- 功能:实现可视化ETL
- 可视化:不用写复杂的代码程序,可以通过图形化的界面来实现数据的处理
- 特点
- 学习以及使用成本低
- 功能强大
二、Kettle安装启动
官方网站:https://sourceforge.net/projects/pentaho/files/Data%20Integration/
下载解压安装
- 注意:文件路径不要有中文
- 注意:文件路径不要有中文
启动
三、Kettle使用
1、转换
- 功能∶实现一个转换的程序
- 输入︰要读取什么数据进行转换
- 转换︰要对数据怎么进行处理
- 输出∶要将处理好的数据保存到什么地方
2、作业
- 功能 : 将多个转换根据需求构建任务流
- 任务流∶很多个任务【每一个转换程序】根据自动运行的条件来运行就是任务流。
- 实际工作中,一次要执行很多个转换任务,如何实现这些任务的自动化执行。
- 自动运行
- 第一种 : 定时运行
- 每天的00:01分开始自动运行
- 第二种:依赖关系
- A先运行,A运行成功,B就自动运行
- 第一种 : 定时运行
- 举例
- 转换1︰实现对数据的过滤。
- 转换2︰实现对数据的补全。
- 转换3∶实现对数据的转换。
- 作业∶一个任务流
- 转换1:每天00:10分自动运行
- 转换2∶转换1运行成功,转换2就开始运行
- 转换3∶转换2运行成功,转换3就开始运行
四、实战案例
1、需求
将txt文件中的数据写入Excel表格中
id,name,age,gender,province,city,region,phone,birthday,hobby,register_date 392456197008193000,张三,20,0,北京市,昌平区,回龙观,18589407692,1970-8-19,美食;篮球;足球,2018-8-6 9:44 267456198006210000,李四,25,1,河南省,郑州市,郑东新区,18681109672,1980-6-21,音乐;阅读;旅游,2017-4-7 9:14 892456199007203000,王五,24,1,湖北省,武汉市,汉阳区,18798009102,1990-7-20,写代码;读代码;算法,2016-6-8 7:34 492456198712198000,赵六,26,2,陕西省,西安市,莲湖区,18189189195,1987-12-19,购物;旅游,2016-1-9 19:15
2、分析
- 任务:一个转换程序
- 输入:读取txt文件中内容
- 转换:不需要
- 输出:将内容加载到一个Excel文件中
3、实现
step1:构建转换流程图
新建一个转换任务
将输入和输出拖入流程图的面板中
连线
注意让线变成深色状态
step2:配置输入
关联文件
双击文本文件输入图标找到要读取的txt文件,点击ok
配置文件的格式
选择输出到下一步的数据
step3:配置输出
输出目标文件
预览输出信息
step4:测试运行
文章通过观看以下视频总结而出
:https://www.bilibili.com/video/BV1CT4y157KE
可视化ETL工具Kettle概念、安装及实战案例相关推荐
- 开源ETL工具kettle系列
开源ETL工具kettle系列之常见问题 摘要:本文主要介绍使用kettle设计一些ETL任务时一些常见问题,这些问题大部分都不在官方FAQ上,你可以在kettle的论坛上找到一些问题的答案 1. J ...
- 开源ETL工具kettle系列之常见问题
摘要:本文主要介绍使用kettle设计一些ETL任务时一些常见问题,这些问题大部分都不在官方FAQ上,你可以在kettle的论坛上找到一些问题的答案 1. Join 我得到A 数据流(不管是基于文件或 ...
- 第三章 可视化ETL平台——Kettle
第三章 可视化ETL平台--Kettle课程目标 能够理解Kettle的主要用途 能够搭建Kettle开发环境 能够掌握Kettle输入组件的使用 能够掌握Kettle输出组件的使用 能够掌 ...
- 四十二、ETL工具Kettle的转换步骤
1. ETL工具Kettle的转换步骤 1.1 Kettle转换步骤的具体内容: 字符串处理 字符串的拆分 字符串的替换 行列变换 其他转换步骤 闭合距离 XSL转换 数值范围 2 字符串的处理 2. ...
- 四十一、ETL工具kettle输出步骤
1. ETL工具Kettle的输出步骤 Kettle输入步骤主要分为以下几类: 数据库输出 表输出 更新.删除.插入和更新 文件输出 文本文件输出 XML输出 Excel文件输出 其他 报表和应用 2 ...
- MongoDB可视化界面工具Studio3T的安装 - 讲解篇
MongoDB可视化界面工具Studio3T的安装 - 讲解篇 因为现在可视化界面很多,我本人用的是 Studio 3T ,这里发文一篇,当时入门宝鉴了. 下载 · 可视化工具 - Studio 3T ...
- 【Centos】EFAK(kafka-eagle)对ZK、Kafka可视化管理工具容器化安装与配置
[Centos]EFAK(kafka-eagle)对ZK.Kafka可视化管理工具容器化安装与配置 前言 构建 Dockerfile system-config.properties works re ...
- ETL工具KETTLE常用设计之——作业设计思路模板
目录 01:检查数据库连接: 02:设置环境变量: 03:设计各自数据流程转换: 04:邮件通知: ETL工具KETTLE用来设计数据流程,无论什么逻辑的数据流程,一般都有一个通用的设计模板流程,在这 ...
- ETL工具Kettle简介和安装配置基本使用
什么是Kettle Kettle是一款国外开源的ETL工具,纯java编写,可以在Window.Linux.Unix上运行,绿色无需安装,数据抽取高效稳定. Kettle 中文名称叫水壶,该项目的主程 ...
最新文章
- 深度学习不得不会的迁移学习Transfer Learning
- Xamarin图表开发基础教程(3)OxyPlot框架
- 机器学习中的损失函数
- php刷新公测,2021新时代来临,Z-BlogPHP 1.7 重磅公测
- Flask的jinja输出json内容
- java robot 文档_文件配置 · simple-robot 机器人开发者使用文档 · 看云
- css样式图片、渐变、相关小知识
- linux mysql启动_MySQL 安装(二)
- 我如何使用Python查找有趣的人来关注Medium
- Zxing使用及常见错误(iOS)
- ASP.NET Core应用针对静态文件请求的处理[5]: DefaultFilesMiddleware中间件如何显示默认页面...
- oracle级联赋权,Oracle 级联with admin option 和 with grant option
- 位运算(异或运算) :数组中数字出现的次数
- VMbox 如何显示控制菜单,不显示控制菜单了
- APP变现渠道该如何选择猫眼聚合SDK用经验为您解答
- 【历史上的今天】7 月 12 日:世界上第一台商用数字计算机;Python 之父卸任 BDFL;Wacom 成立
- easyswoole消息队列
- PHP+ mysql实现注册登录功能
- 【苦练基本功】代码整洁之道 pt3(第7章-第9章)
- 修改seting里面的休眠时间列表
热门文章
- vue引入音乐播放器插件
- android 调用图片裁剪功能,Android图片裁剪,合成(调用系统裁剪功能)
- 比亚迪新能源汽车战略布局研究
- iOS 微信 音视频自动播放 原生接口WeixinJSBridge API(一些整理 小技巧)
- vxworks pci驱动
- 游戏盾-一个让你放心的盾
- Linux零基础作业,Linux作业1--基础20题
- 北理计算机学院高扬,北理工MBA戚高扬备考故事:| 为梦起航 圆梦北理
- 搭建机器人电控系统——MCU基石——STM32 GPIO原理
- 全球及中国反渗透膜市场品牌竞争格局与应用前景调研报告2022年