文章目录

  • 什么是ETL
  • 什么是ELT
  • ETL vs ELT
  • 相关框架-kestra介绍
  • 参考

ETL和ELT是两种数据集成方法,它们主要的任务就是将数据从一个地方转移到另一个地方。两者最大的区别是:ETL在转移之前会对数据进行转换;而ELT是在转移之后再进行数据转换。

ETL是一种存在已久的技术,而ELT则是伴随云数据库兴起的一种较为新的技术。

什么是ETL

ETL是 extract、 transform 和 load三个单词的缩写,它代表一种数据集成过程,属于方法学;它将来自多个数据源的数据组合成一个单一的、一致的数据存储,并将其加载到数据仓库或其他目标系统中。

ETL为数据分析和机器学习提供了基础。通过一系列业务规则,ETL以满足特定业务需求的方式清理和组织数据,比如月度报告,另外它还可以处理更高级的分析,这可以改善后续流程或用户体验。ETL的工作流程一般包含以下三个步骤

  • 提取数据
  • 清洗数据
  • 导入数据

以OLAP系统为例,在线分析系统一般使用的都是关系型数据库,需要结构化的数据,此时就需要ETL处理程序来对源头数据进行清洗,对不合格的数据进行转换,然后再将数据导入OLAP系统中。

什么是ELT

ELT是直接将原始数据导入目标数据库中,在这个过程中并不需要经过转换。

对于ELT来说,数据清洗、加工以及转换都发生在目标数据库内部。ELT适用于使用了云数据仓库的体系,例如,常见的云端数据仓库:

  • Snowflake
  • Amazon Redshift
  • Google BigQuery
  • Microsoft Azure

这些仓库都内置了各种数据处理程序,方便对导入的原始数据进行处理转化。

ETL vs ELT

ETL和ELT之间最明显的区别是操作顺序的不同。ELT从源位置复制或导出数据,但不是将其加载到暂存区域进行转换,而是将原始数据直接加载到目标数据库中,由目标数据库根据需要进行转换:

  • ETL在一个独立的服务器上对原始数据进行转换;而ELT在目标数据仓库内部进行数据转换
  • ETL不会把原始数据传输到目标数据库;而ELT中,目标数据库直接接受原始数据

ELT保留原始数据集,而ETL则相反;对于非结构化数据的处理,ELT更有优势,因为它提供了很多在这方面的工具。

在安全和隐私方面,ETL则相对有一定的优势,因为它在将数据传输到目标数据前可以对数据进行一定的处理,例如加密,脱敏等;而ELT传输的是原始数据,有一定的安全风险。

项目 ETL ELT
定义 从上游系统提取数据,在另一个独立的系统上对数据进行转换,最后将转换后的数据导入下游系统 从上游系统提取数据,直接将数据导入下游系统,在下游系统内部对数据进行转换
速度 较为耗时 更快,数据导入和转换可以并行进行
维护 独立的转换系统增加了维护成本 系统数量更少,维护成本降低
隐私 较强
输出 结构化的数据 结构化、半结构化、非结构数据
数据量 适合需要经过复杂转换的小数据集 适合对时效性要求比较强的大数据集

相关框架-kestra介绍

  • Github地址:https://github.com/kestra-io/kestra
  • Demo演示:https://demo.kestra.io/

kestra是一个任务调度平台,同时具有ETL和ELT的特性,它提供丰富的插件以及自定义插件等功能,可以适配各类复杂的场景。

参考

  1. https://www.ibm.com/cloud/learn/etl
  2. https://rivery.io/blog/etl-vs-elt/

ETL VS ELT相关推荐

  1. 从Oracle收购sunopsis看ETL和ELT产品的趋势

    10月10日收到Oracle收购sunopsis的消息.开始觉得有些意外.仔细一考虑应该在情理之中. 第一sunopsis采用ELT架构换句话说也就是说Sunopsis用它采用的RDBMS的功能去完成 ...

  2. etl数据抽取工具_数据同步工具ETL、ELT傻傻分不清楚?3分钟看懂两者区别

    什么是数据同步工具(ETL.ELT) 数据同步工具ETL或者ELT的作用是将业务系统的数据经过抽取.清洗转换之后加载到数据仓库的过程,目的是将企业中的分散.零乱.标准不统一的数据整合到一起,为企业的决 ...

  3. ETL和ELT的区别

    0.前言 当你第一次看到这两个词的时候会以为写错了或者ELT是不是其他高大上的概念,但是实质他们两只是顺序调换.虽然表面看只是顺序调换了,但是两者处理数据的方式也是不一样. ETL 是Extract( ...

  4. 一学就会一用却废!到底应该用ETL还是ELT?

     技术专家  祁国辉 前 Oracle 云平台事业部电信行业技术总监 [作者介绍]网名"atiger",前 Oracle 云平台事业部电信行业技术总监.拥有超过25年数据库和数据仓 ...

  5. 一文搞懂ETL和ELT的区别

    在过去的十年,我们对存储和管理数据的方式发生了很大的变化,并从ETL模式逐渐转向ELT,然而,小编认为这并不会是终点:未来极有可能会向EL(T)发展,也就是EL和T进行完全解耦.当然这只是一种猜想.本 ...

  6. ETL 与 ELT的关键区别

    ETL 和 ELT 之间的主要区别在于数据转换发生的时间和地点 - 这些变化可能看起来很小,但会产生很大的影响! ETL 和 ELT 是数据团队引入.转换并最终向利益干系人公开数据的两种主要方式.它们 ...

  7. ETL和ELT到底有啥区别???

    前言 昨天群里突然有人问了一个这个问题: 我最早听说 ELT 的时候也楞了一下,只不过简单琢磨了一下就放下了.今天重新听到,其实也没啥感觉. 反正有人也给出了最言简意赅的解释: 只是换个顺序? 然后就 ...

  8. 数据仓库、数据整合、ETL、ELT和EII之间的区别?

    在数据仓库领域里,的一个重要概念就是数据整合(data intergration).数据整合它就是把不同数据库中的数据整合到一起,对外提供统一的数据视图. 数据整合最典型的案例就是整合存货数据和订单数 ...

  9. ETL与ELT的区别与联系?

    ETL与ELT的区别与联系 其实数据集成不算一个很新的概念,可能20年前就有数据集成的工具,大家经常会使用Talent, Informatica, Kettle, Data Stage这样一些工具.这 ...

最新文章

  1. python字符串函数运算_Python入门教程2. 字符串基本操作【运算、格式化输出、常用函数】 原创...
  2. 动态规划经典题之编辑距离
  3. 创建war类型的maven工程时报web.xml is missing and failOnMissingWebXml is set to true
  4. 关于JFace中的向导式对话框(WizardDialog类)
  5. linux系统kvm安装,快速搭建KVM及安装linux系统
  6. zTree实现地市县三级级联报错(一)
  7. 【图像融合】基于matlab IHS图像融合【含Matlab源码 724期】
  8. emWin—数字软键盘
  9. linux 模板 制作工具,OpenTBS 1.8.0 发布,生成 Office 的模板工具
  10. 测井数据的聚类算法分段分层及图例
  11. java助理工程师主要做什么工作,Java助理工程师面试的惨痛教训
  12. 学习笔记-部署和管理DPM 2016-04文件和应用程序保护
  13. 【C语言】数字直角三角形,数字矩阵,蛇形数组
  14. 解锁忘记密码的iPhone X
  15. APMserv常见问题
  16. 考研数学 每日一题 第四题
  17. SwiftUI系列教程第1章第3节:Text的段落属性
  18. Fabric 测试网络 - 商业票据
  19. 链路聚合的原理以及配置
  20. NMS by Representative Region: Towards Crowded Pedestrian Detection by Proposal Pairing论文笔记

热门文章

  1. 最大堆和最小堆(数据结构)
  2. 《数据结构》:中缀表达式合法性判断
  3. 图像处理中常用的彩色模型
  4. L2正则化—tensorflow实现
  5. MATLAB求解线性方程组的八种方法
  6. 【安装+配置】Mac服务端svn
  7. python和c语言哪个更难学深_c语言和python先学哪个比较简单
  8. MySQL-数据表创建命令
  9. 955.WLB 红包封面来啦!送给希望不加班的你~
  10. Airsim中运行OpenVINS和VINS_Fusion