ETL VS ELT
文章目录
- 什么是ETL
- 什么是ELT
- ETL vs ELT
- 相关框架-kestra介绍
- 参考
ETL和ELT是两种数据集成方法,它们主要的任务就是将数据从一个地方转移到另一个地方。两者最大的区别是:ETL在转移之前会对数据进行转换;而ELT是在转移之后再进行数据转换。
ETL是一种存在已久的技术,而ELT则是伴随云数据库兴起的一种较为新的技术。
什么是ETL
ETL是 extract、 transform 和 load三个单词的缩写,它代表一种数据集成过程,属于方法学;它将来自多个数据源的数据组合成一个单一的、一致的数据存储,并将其加载到数据仓库或其他目标系统中。
ETL为数据分析和机器学习提供了基础。通过一系列业务规则,ETL以满足特定业务需求的方式清理和组织数据,比如月度报告,另外它还可以处理更高级的分析,这可以改善后续流程或用户体验。ETL的工作流程一般包含以下三个步骤
- 提取数据
- 清洗数据
- 导入数据
以OLAP系统为例,在线分析系统一般使用的都是关系型数据库,需要结构化的数据,此时就需要ETL处理程序来对源头数据进行清洗,对不合格的数据进行转换,然后再将数据导入OLAP系统中。
什么是ELT
ELT是直接将原始数据导入目标数据库中,在这个过程中并不需要经过转换。
对于ELT来说,数据清洗、加工以及转换都发生在目标数据库内部。ELT适用于使用了云数据仓库的体系,例如,常见的云端数据仓库:
- Snowflake
- Amazon Redshift
- Google BigQuery
- Microsoft Azure
这些仓库都内置了各种数据处理程序,方便对导入的原始数据进行处理转化。
ETL vs ELT
ETL和ELT之间最明显的区别是操作顺序的不同。ELT从源位置复制或导出数据,但不是将其加载到暂存区域进行转换,而是将原始数据直接加载到目标数据库中,由目标数据库根据需要进行转换:
- ETL在一个独立的服务器上对原始数据进行转换;而ELT在目标数据仓库内部进行数据转换
- ETL不会把原始数据传输到目标数据库;而ELT中,目标数据库直接接受原始数据
ELT保留原始数据集,而ETL则相反;对于非结构化数据的处理,ELT更有优势,因为它提供了很多在这方面的工具。
在安全和隐私方面,ETL则相对有一定的优势,因为它在将数据传输到目标数据前可以对数据进行一定的处理,例如加密,脱敏等;而ELT传输的是原始数据,有一定的安全风险。
项目 | ETL | ELT |
---|---|---|
定义 | 从上游系统提取数据,在另一个独立的系统上对数据进行转换,最后将转换后的数据导入下游系统 | 从上游系统提取数据,直接将数据导入下游系统,在下游系统内部对数据进行转换 |
速度 | 较为耗时 | 更快,数据导入和转换可以并行进行 |
维护 | 独立的转换系统增加了维护成本 | 系统数量更少,维护成本降低 |
隐私 | 较强 | 弱 |
输出 | 结构化的数据 | 结构化、半结构化、非结构数据 |
数据量 | 适合需要经过复杂转换的小数据集 | 适合对时效性要求比较强的大数据集 |
相关框架-kestra介绍
- Github地址:https://github.com/kestra-io/kestra
- Demo演示:https://demo.kestra.io/
kestra是一个任务调度平台,同时具有ETL和ELT的特性,它提供丰富的插件以及自定义插件等功能,可以适配各类复杂的场景。
参考
- https://www.ibm.com/cloud/learn/etl
- https://rivery.io/blog/etl-vs-elt/
ETL VS ELT相关推荐
- 从Oracle收购sunopsis看ETL和ELT产品的趋势
10月10日收到Oracle收购sunopsis的消息.开始觉得有些意外.仔细一考虑应该在情理之中. 第一sunopsis采用ELT架构换句话说也就是说Sunopsis用它采用的RDBMS的功能去完成 ...
- etl数据抽取工具_数据同步工具ETL、ELT傻傻分不清楚?3分钟看懂两者区别
什么是数据同步工具(ETL.ELT) 数据同步工具ETL或者ELT的作用是将业务系统的数据经过抽取.清洗转换之后加载到数据仓库的过程,目的是将企业中的分散.零乱.标准不统一的数据整合到一起,为企业的决 ...
- ETL和ELT的区别
0.前言 当你第一次看到这两个词的时候会以为写错了或者ELT是不是其他高大上的概念,但是实质他们两只是顺序调换.虽然表面看只是顺序调换了,但是两者处理数据的方式也是不一样. ETL 是Extract( ...
- 一学就会一用却废!到底应该用ETL还是ELT?
技术专家 祁国辉 前 Oracle 云平台事业部电信行业技术总监 [作者介绍]网名"atiger",前 Oracle 云平台事业部电信行业技术总监.拥有超过25年数据库和数据仓 ...
- 一文搞懂ETL和ELT的区别
在过去的十年,我们对存储和管理数据的方式发生了很大的变化,并从ETL模式逐渐转向ELT,然而,小编认为这并不会是终点:未来极有可能会向EL(T)发展,也就是EL和T进行完全解耦.当然这只是一种猜想.本 ...
- ETL 与 ELT的关键区别
ETL 和 ELT 之间的主要区别在于数据转换发生的时间和地点 - 这些变化可能看起来很小,但会产生很大的影响! ETL 和 ELT 是数据团队引入.转换并最终向利益干系人公开数据的两种主要方式.它们 ...
- ETL和ELT到底有啥区别???
前言 昨天群里突然有人问了一个这个问题: 我最早听说 ELT 的时候也楞了一下,只不过简单琢磨了一下就放下了.今天重新听到,其实也没啥感觉. 反正有人也给出了最言简意赅的解释: 只是换个顺序? 然后就 ...
- 数据仓库、数据整合、ETL、ELT和EII之间的区别?
在数据仓库领域里,的一个重要概念就是数据整合(data intergration).数据整合它就是把不同数据库中的数据整合到一起,对外提供统一的数据视图. 数据整合最典型的案例就是整合存货数据和订单数 ...
- ETL与ELT的区别与联系?
ETL与ELT的区别与联系 其实数据集成不算一个很新的概念,可能20年前就有数据集成的工具,大家经常会使用Talent, Informatica, Kettle, Data Stage这样一些工具.这 ...
最新文章
- python字符串函数运算_Python入门教程2. 字符串基本操作【运算、格式化输出、常用函数】 原创...
- 动态规划经典题之编辑距离
- 创建war类型的maven工程时报web.xml is missing and failOnMissingWebXml is set to true
- 关于JFace中的向导式对话框(WizardDialog类)
- linux系统kvm安装,快速搭建KVM及安装linux系统
- zTree实现地市县三级级联报错(一)
- 【图像融合】基于matlab IHS图像融合【含Matlab源码 724期】
- emWin—数字软键盘
- linux 模板 制作工具,OpenTBS 1.8.0 发布,生成 Office 的模板工具
- 测井数据的聚类算法分段分层及图例
- java助理工程师主要做什么工作,Java助理工程师面试的惨痛教训
- 学习笔记-部署和管理DPM 2016-04文件和应用程序保护
- 【C语言】数字直角三角形,数字矩阵,蛇形数组
- 解锁忘记密码的iPhone X
- APMserv常见问题
- 考研数学 每日一题 第四题
- SwiftUI系列教程第1章第3节:Text的段落属性
- Fabric 测试网络 - 商业票据
- 链路聚合的原理以及配置
- NMS by Representative Region: Towards Crowded Pedestrian Detection by Proposal Pairing论文笔记