文章目录

  • 一、数据仓库与ETL
    • 1、数据仓库
    • 2、ETL
    • 3、Kettle
  • 二、Kettle安装启动
  • 三、Kettle使用
    • 1、转换
    • 2、作业
  • 四、实战案例
    • 1、需求
    • 2、分析
    • 3、实现

一、数据仓库与ETL

1、数据仓库

  • 本质 : 专门针对于数据存储模型
  • 实现:MySQL、Oracle、Hive…
  • 应用:专门用于实现将各种各样数据进行统一化规范化的数据存储,为所有数据应用提供数据
    • 数据分析
    • 数据挖掘
    • 用户画像
    • 推荐系统
    • 风控系统
  • 特点
    • 本身不产生数据
    • 本身也不使用数据
    • 用于实现复杂数据的存储
  • 与数据库区别
    • 数据库 : 一般用于支撑业务数据的存储

      • 网站后台∶用户数据、商品数据、订单数据。
    • 数据仓库:专门为数据数据处理提供数据的
      - 业务数据
      - 用户行为
      - 爬虫数据
      - 第三方数据
      - 日志数据
  • 问题
    • 数据种类非常的多,每一种数据的内容或者格式都不一样

      • 有结构化、有非结构化
      • 有合法的,有非法的
      • 有需要的,有不需要的
    • MySQL是一个专门用于存储结构化数据的数据存储工具
      - 结构化
      - 需要
      - 合法
    • 如何将各种各样的数据存储在MYSQL中?
      • 解决

        • 数据产生以后,不能直接放入数据仓库【MySQL】中存储
        • 对原始数据进行一步预处理,将需要的、合法的数据放入数据仓库中。
        • 这一步预处理:ETL【数据清洗】

2、ETL

  • 功能 : 实现数据的预处理,数据清洗过程,将原始数据经过ETL处理变成想要的数据,进行下一步的应用

  • 实现

    • 抽取∶读取需要处理的原始数据。

    • 转换︰将原始数据转换为目标数据

      • 过滤∶将不需要的数据过滤掉
      • 补全 : 将需要用到的数据补全
      • 转换∶原始数据的格式不是我们想要的格式,转换为想要的格式
    • 加载︰将处理好的目标数据放入数据仓库中

3、Kettle

  • 功能:实现可视化ETL

    • 可视化:不用写复杂的代码程序,可以通过图形化的界面来实现数据的处理
  • 特点
    • 学习以及使用成本低
    • 功能强大

二、Kettle安装启动

官方网站:https://sourceforge.net/projects/pentaho/files/Data%20Integration/

  • 下载解压安装

    • 注意:文件路径不要有中文
  • 启动

三、Kettle使用

1、转换

  • 功能∶实现一个转换的程序

    • 输入︰要读取什么数据进行转换
    • 转换︰要对数据怎么进行处理
    • 输出∶要将处理好的数据保存到什么地方

2、作业

  • 功能 : 将多个转换根据需求构建任务流

    • 任务流∶很多个任务【每一个转换程序】根据自动运行的条件来运行就是任务流。
    • 实际工作中,一次要执行很多个转换任务,如何实现这些任务的自动化执行。
    • 自动运行
      • 第一种 : 定时运行

        • 每天的00:01分开始自动运行
      • 第二种:依赖关系
        • A先运行,A运行成功,B就自动运行
    • 举例
      • 转换1︰实现对数据的过滤。
      • 转换2︰实现对数据的补全。
      • 转换3∶实现对数据的转换。
      • 作业∶一个任务流
        • 转换1:每天00:10分自动运行
        • 转换2∶转换1运行成功,转换2就开始运行
        • 转换3∶转换2运行成功,转换3就开始运行

四、实战案例

1、需求

  • 将txt文件中的数据写入Excel表格中

    id,name,age,gender,province,city,region,phone,birthday,hobby,register_date
    392456197008193000,张三,20,0,北京市,昌平区,回龙观,18589407692,1970-8-19,美食;篮球;足球,2018-8-6 9:44
    267456198006210000,李四,25,1,河南省,郑州市,郑东新区,18681109672,1980-6-21,音乐;阅读;旅游,2017-4-7 9:14
    892456199007203000,王五,24,1,湖北省,武汉市,汉阳区,18798009102,1990-7-20,写代码;读代码;算法,2016-6-8 7:34
    492456198712198000,赵六,26,2,陕西省,西安市,莲湖区,18189189195,1987-12-19,购物;旅游,2016-1-9 19:15
    

2、分析

  • 任务:一个转换程序

    • 输入:读取txt文件中内容
    • 转换:不需要
    • 输出:将内容加载到一个Excel文件中

3、实现

  • step1:构建转换流程图

    • 新建一个转换任务

    • 将输入和输出拖入流程图的面板中

    • 连线

      注意让线变成深色状态

  • step2:配置输入

    • 关联文件
      双击文本文件输入图标

      找到要读取的txt文件,点击ok

    • 配置文件的格式

    • 选择输出到下一步的数据

  • step3:配置输出

    • 输出目标文件

    • 预览输出信息

  • step4:测试运行


    文章通过观看以下视频总结而出:https://www.bilibili.com/video/BV1CT4y157KE

可视化ETL工具Kettle概念、安装及实战案例相关推荐

  1. 开源ETL工具kettle系列

    开源ETL工具kettle系列之常见问题 摘要:本文主要介绍使用kettle设计一些ETL任务时一些常见问题,这些问题大部分都不在官方FAQ上,你可以在kettle的论坛上找到一些问题的答案 1. J ...

  2. 开源ETL工具kettle系列之常见问题

    摘要:本文主要介绍使用kettle设计一些ETL任务时一些常见问题,这些问题大部分都不在官方FAQ上,你可以在kettle的论坛上找到一些问题的答案 1. Join 我得到A 数据流(不管是基于文件或 ...

  3. 第三章 可视化ETL平台——Kettle

    第三章 可视化ETL平台--Kettle课程目标 能够理解Kettle的主要用途 能够搭建Kettle开发环境 能够掌握Kettle输入组件的使用 能够掌握Kettle输出组件的使用 能够掌 ...

  4. 四十二、ETL工具Kettle的转换步骤

    1. ETL工具Kettle的转换步骤 1.1 Kettle转换步骤的具体内容: 字符串处理 字符串的拆分 字符串的替换 行列变换 其他转换步骤 闭合距离 XSL转换 数值范围 2 字符串的处理 2. ...

  5. 四十一、ETL工具kettle输出步骤

    1. ETL工具Kettle的输出步骤 Kettle输入步骤主要分为以下几类: 数据库输出 表输出 更新.删除.插入和更新 文件输出 文本文件输出 XML输出 Excel文件输出 其他 报表和应用 2 ...

  6. MongoDB可视化界面工具Studio3T的安装 - 讲解篇

    MongoDB可视化界面工具Studio3T的安装 - 讲解篇 因为现在可视化界面很多,我本人用的是 Studio 3T ,这里发文一篇,当时入门宝鉴了. 下载 · 可视化工具 - Studio 3T ...

  7. 【Centos】EFAK(kafka-eagle)对ZK、Kafka可视化管理工具容器化安装与配置

    [Centos]EFAK(kafka-eagle)对ZK.Kafka可视化管理工具容器化安装与配置 前言 构建 Dockerfile system-config.properties works re ...

  8. ETL工具KETTLE常用设计之——作业设计思路模板

    目录 01:检查数据库连接: 02:设置环境变量: 03:设计各自数据流程转换: 04:邮件通知: ETL工具KETTLE用来设计数据流程,无论什么逻辑的数据流程,一般都有一个通用的设计模板流程,在这 ...

  9. ETL工具Kettle简介和安装配置基本使用

    什么是Kettle Kettle是一款国外开源的ETL工具,纯java编写,可以在Window.Linux.Unix上运行,绿色无需安装,数据抽取高效稳定. Kettle 中文名称叫水壶,该项目的主程 ...

最新文章

  1. 深度学习不得不会的迁移学习Transfer Learning
  2. Xamarin图表开发基础教程(3)OxyPlot框架
  3. 机器学习中的损失函数
  4. php刷新公测,2021新时代来临,Z-BlogPHP 1.7 重磅公测
  5. Flask的jinja输出json内容
  6. java robot 文档_文件配置 · simple-robot 机器人开发者使用文档 · 看云
  7. css样式图片、渐变、相关小知识
  8. linux mysql启动_MySQL 安装(二)
  9. 我如何使用Python查找有趣的人来关注Medium
  10. Zxing使用及常见错误(iOS)
  11. ASP.NET Core应用针对静态文件请求的处理[5]: DefaultFilesMiddleware中间件如何显示默认页面...
  12. oracle级联赋权,Oracle 级联with admin option 和 with grant option
  13. 位运算(异或运算) :数组中数字出现的次数
  14. VMbox 如何显示控制菜单,不显示控制菜单了
  15. APP变现渠道该如何选择猫眼聚合SDK用经验为您解答
  16. 【历史上的今天】7 月 12 日:世界上第一台商用数字计算机;Python 之父卸任 BDFL;Wacom 成立
  17. easyswoole消息队列
  18. PHP+ mysql实现注册登录功能
  19. 【苦练基本功】代码整洁之道 pt3(第7章-第9章)
  20. 修改seting里面的休眠时间列表

热门文章

  1. vue引入音乐播放器插件
  2. android 调用图片裁剪功能,Android图片裁剪,合成(调用系统裁剪功能)
  3. 比亚迪新能源汽车战略布局研究
  4. iOS 微信 音视频自动播放 原生接口WeixinJSBridge API(一些整理 小技巧)
  5. vxworks pci驱动
  6. 游戏盾-一个让你放心的盾
  7. Linux零基础作业,Linux作业1--基础20题
  8. 北理计算机学院高扬,北理工MBA戚高扬备考故事:| 为梦起航 圆梦北理
  9. 搭建机器人电控系统——MCU基石——STM32 GPIO原理
  10. 全球及中国反渗透膜市场品牌竞争格局与应用前景调研报告2022年