这是大数据技术扫盲系列的第四篇【什么是ELT】

全文1000字,阅读需要5分钟

一、什么是ELT?

ELT是抽取(Extract)、加载(Load)、转换(Transform)的缩写。

数据抽取:ELT pipeline的起始端,字面含义不做解释,在架构数据抽取方案时,有两个关注点,第一个要对多数据源类型、多种数据结构保持一定的灵活性和适配,比如关系型数据库的结构化数据、XML、JSON、文本文件、API、消息流等;第二个是对增全量模式的支持,支持通过SQL查询的方式对增量数据进行抓取(物理删除无法捕获的风险)、通过变更日志的CDC增量抓取、全量抓取。

数据加载:ELT pipeline的目标端,可以是一个集中的数据库、数据仓库、数据湖。在这部分,需要关注,第一个注意数据写入的模式是追加还是覆盖,这个取决于约定的同步模式。尽量支持流程的幂等执行。第二个注意加载的数据和源端保持一致,作为贴源层。第三是方案需要考虑支持多点加载,即一次抽取分发多个目标端。

数据转换:将加载后的数据做加工,一般包括数据清洗和结构化处理、数据校验、数据关联、数据增强。

二、为什么不是ETL?

我们所熟知的是ETL,抽取、转换、加载,即数据在落地到目标端前做数据的转换操作。在现代数据技术栈中,提倡更多的是ELT,主要的原因有两个:

第一个是ELT比ETL有更广的适用范围:在当下数据平民化的趋势下,一份数据往往要应对更灵活的需求,意味着数据要尽量保证原汁原味。在抽取过程中转换,原始数据中有信息丢失,也意味着这个数据所能应用的场景已经被提前设计,在需求发生变化时,需要做调整。

第二个是存储和计算成本的不断降低,ETL自1970年出现后,在转换中裁剪数据,以减少下游在数据处理中对存储和计算资源的损耗。但当下存储成本和计算成本逐步降低,对海量数据的存储和计算不再昂贵,也使ELT成为更优选择.

为什么是ELT而非ETL相关推荐

  1. 从Oracle收购sunopsis看ETL和ELT产品的趋势

    10月10日收到Oracle收购sunopsis的消息.开始觉得有些意外.仔细一考虑应该在情理之中. 第一sunopsis采用ELT架构换句话说也就是说Sunopsis用它采用的RDBMS的功能去完成 ...

  2. etl数据抽取工具_数据同步工具ETL、ELT傻傻分不清楚?3分钟看懂两者区别

    什么是数据同步工具(ETL.ELT) 数据同步工具ETL或者ELT的作用是将业务系统的数据经过抽取.清洗转换之后加载到数据仓库的过程,目的是将企业中的分散.零乱.标准不统一的数据整合到一起,为企业的决 ...

  3. elt和etl_ETL和ELT架构概述

    elt和etl This article explains what the basic features and differences between ETL and ELT are. I'm a ...

  4. ETL学习-前期准备

    一.ETL (一).ETL是什么 ETL,Extract-Transform-Load的缩写,中文名为数据抽取.转换和加载.ETL 代表提取.转换和加载,是数据工程师用从不同来源提取数据.将数据转换为 ...

  5. 不做etl sql 怎么直接取_我们可以不再使用ETL了吗?

    近年来,我们在数据科学和高级分析方面取得了一些进步,但许多项目仍然采用20世纪80年代的遗留技术:萃取(extract).转置(transform)和加载(load),也就是我们所说的ETL.这让数据 ...

  6. ETL工具 鱼龙混杂,如何甄选?(开源、包开源、包数据库辅助功能、商用)

    实施数据集成项目遇到如下问题吗? 无限投入人力 无限投入精力 无限投入时间 没有服务支持 多数公司在用"开源ETL工具Kettle "实际项目落地后,可谓哑巴吃黄连--有苦难开! ...

  7. mysql elt_引入可观察的自记录ELT

    mysql elt Virevol ai is a collaborative visual shopping app. We run a remote-first lean team, have b ...

  8. 数据仓库工作总结(觉得有点意思)

    1.   概述 本文作为我这些年实施数据仓库的总结,如有错误,请各位同仁指正. 文档条理不是很清楚,而且也有很多口水话,我不想搞成一个真正的官方文档,所以很随意,符合我的性格.很多问题我只是提出来了, ...

  9. 数据仓库工作总结(转载)

    数仓网文转载 概述 本文作为我这些年实施数据仓库的总结,如有错误,请各位同仁指正. 文档条理不是很清楚,而且也有很多口水话,我不想搞成一个真正的官方文档,所以很随意,符合我的性格.很多问题我只是提出来 ...

最新文章

  1. 数据库中如何判断某参数为空就不执行where条件
  2. 不限制内存用桶排序PHP
  3. cmake (3)多个源文件示例
  4. java微信群自动回复_Java故事之路在脚下
  5. row height
  6. python怎样遍历列表中数字_关于Python列表的遍历和数字列表
  7. AOP和Spring AOP介绍
  8. 有关Canvas的一点小事—图像绘制
  9. 练习:写一个脚本,完成以下任务
  10. 掌握面试——弹出框的实现
  11. java php serialize_PHP serialize JSON 解析
  12. 开启我的segmentfault之旅
  13. Linux内核分析-分析Linux内核创建一个新进程的过程
  14. HDU5828 Rikka with Sequence
  15. matlab求动力学模型,MATLAB/Simulink动力学系统建模与仿真(带目录)_IT教程网
  16. linux hdparm 测试磁盘io,Linux测试硬盘读写速度之hdparm命令
  17. 地球上第一款测身高的安卓手机应用——AR 测身高
  18. php生成mp4文件,PHP实现将视频转成MP4并获取视频预览图的方法
  19. 安信可nbiot模块_专利分享基于NBIOT的微电网信息采集与监控系统及其实现方法...
  20. Python数据分析实用程序

热门文章

  1. 计算机考研复试-离散数学
  2. 网易运营微专业_运营基础
  3. ASP.NET Calendar 控件在中文服务器上显示为英文星期的处理
  4. 如何将.hex文件转化为.c文件
  5. 杂项-Grunt:grunt build 打包和常见错误
  6. 7 再也不去酒吧喝酒系列
  7. checkpoint = torch.load(args.state_dict) ->RuntimeError: CUDA error: out of memory
  8. VUE初学--表单输入与v-model
  9. RK3566-商显广告机、跑步机主板方案
  10. 绘制地铁线路html,基于HTML5技术绘制上海地铁图