ETL全称为 Extraction Transformation Loading。

ETL的基础概念是将业务系统的数据经过抽取(Extraction)、转换(Transformation)、加载(Loading)到数据仓库的过程。

因为有面试需要了解ETL分层建设方法,大致看了些视频。

总结如下:

(1)抽取:抽取指将数据从一个数据源或多个数据源抽取过来的一个动作

数据源有可能是关系型的数据库、表。也可能是文本文件,或者是一个程序的API接口。

(2)转换:在商业智能(BI)里指数据的清洗,合并拆分加工,数据逻辑计算处理的一个过程,通常会按照一定的业务逻辑规则进行计算,最后转换成符合业务模型,分析模型的一个规范性的数据。

简单来说,不管是大数据、小数据都是将不规范的、不可分析的数据转换为规范的、可分析的数据的一个过程。

(3)加载:加载将转换的结果按照分析模型所需要的格式,将数据写入到目标表中,那这些目标表本身就是业务自助分析的数据来源,通常是按照一定的建模方式来组织的,那不管是星型模型,还是雪花型分析模型,那么都是在BI种,我们通常定义的ETL的处理过程。

另外一种ETL(纯数据的处理)

比如说数据库里的数据迁移,多数据源的数据迁移,那么这些是纯数据的开发,也不一定面向BI,可能是业务系统直接的数据转换处理。

ETL基本上都是通过SQL语句实现。

处理分为五大模块:数据抽取、数据清洗、库内转换、规则检查、数据加载。

①数据抽取:确定数据源、定义数据接口、确定数据抽取的方法。

②数据清洗与转换:

1.清洗:主要将不完整的、错误的、重复的数据处理

2.转换:空值处理、数据标准、数据拆分、数据验证、数据替换、数据关联

③数据加载:

1.全量:LOAD

2.增量:根据业务规则MERGE

还有ELT架构。

ETL模式介绍:触发器模式、增量字段、全量同步、日志比对。

①增量抽取机制

②捕获变化数据

③全表删除插入方式

④通过数据库层面的日志来捕获变化数据

ETL: Extraction Transformation Loading相关推荐

  1. 故障解决:error while loading shared libraries: libncurses.so.5

    故障解决:error while loading shared libraries: libncurses.so.5 问题的提出 在我准备调试 Linux-0.11 内核的时候,出现了如下故障(真奇怪 ...

  2. 启动Nginx时报错:error while loading shared libraries: librdkafka.so.1: cannot open shared object file: No

    安装了Nginx之后,启动时报错: error while loading shared libraries: librdkafka.so.1: cannot open shared object f ...

  3. 异常:Fatal error loading the DB: Invalid argument. Exiting

    异常:Fatal error loading the DB: Invalid argument. Exiting docker启动redis:docker start redis ,查看日志 :doc ...

  4. 普元 AppServer 部署应用时报错:Exception while loading the app : CDI deployment failure

    [问题] 部署应用时报错,报错日志如下: Exception while loading the app : CDI deployment failure:WELD-001409:Ambiguous ...

  5. 关于启动nginx时报错:error while loading shared libraries: libpcre.so.1

    今天配置好nginx后在sbin目录下执行 ./nginx时报错如下: error while loading shared libraries: libpcre.so.1: cannot open ...

  6. Lecture 12 : Nonlinear Transformation

    Lecture 12 : Nonlinear Transformation [参考]https://redstonewill.com/246/ [概括] 主要介绍了非线性分类模型: 通过非线性变换,将 ...

  7. Linux/ubuntu:Chrome报错解决: error while loading shared libraries: libnss3.so libXss.so.1 libasound.so.

    下午在用nodejs在linux上操作puppeteer/chromium/chrome时报错如下: -> # node search.js count is 1 (node:15360) Un ...

  8. 启动 nginx 时报错:error while loading shared libraries:

    Nginx 启动出错 error while loading shared libraries: libpcre.so.1 error while loading shared libraries: ...

  9. linux - python - 异常:error while loading shared libraries

    问题描述 error while loading shared libraries: libpython2.7.so.1.0: cannot open shared object file: No s ...

  10. linux fedora安装、运行mybase7.3.5报错:error while loading shared libraries: libpng12.so.0

    直接安装即可: sudo dnf install libpng12 dnf安装的是32位的,在64位系统下无法使用,参考我的下面这篇文章来解决: https://zhangxueliang.blog. ...

最新文章

  1. [你必须知道的.NET]第二十一回:认识全面的null
  2. 转载:SecureCRT 唯美配色方案
  3. Angular项目构建指南 - 不再为angular构建而犹豫不决(转)
  4. matlab批量生成灰度图像_科学网—matlab彩色图像的批处理转换为灰度、二值和主成分图图像 - 金秀良的博文...
  5. php怎么添加验证码,PHP添加验证码以及使用
  6. php 5.6 引用传递,升级到5.6.x后如何在php中修复引用传递
  7. vue assets图片_Vue实战—如何细化Vue项目目录设计(2)
  8. 利用计算机进行国际贸易的弊端,国际贸易中的计算机应用体系建设浅析
  9. python摄像头识别快递单号查询_免费对接快递鸟api单号识别查询接口(python)
  10. HTML做一个学校网站(纯html代码)
  11. 单片机c语言程序编写歌谱,51单片机播放音乐简谱的函数库
  12. win7如何设置wifi热点_教你win7如何设置网络共享文件夹
  13. Linux bpf 1.1、BPF内核实现
  14. 《Unsupervised Monocular Depth Learning in Dynamic Scenes》论文笔记
  15. Zabbix学习笔记(七)---网络波动监控
  16. 怎么更改當前的USERENV(#39;LANG#39;)返回值 oracle
  17. 教你免费使用论文检索网,轻松下载
  18. 关于socket中的send函数
  19. Galera/mysql 集群 备忘
  20. 2020年阴历二月十六 读书笔记之漫步华尔街行为金融学

热门文章

  1. 【Mac使用技巧】Mac的VMware虚拟机系统时间如何调成不同步
  2. WePhone网络电话灰色运营?专家:若无许可属非法
  3. MySql 报错1548
  4. iphoneX适配-客户端H5页面
  5. PMP 项目质量管理
  6. HDU 6438 Buy and Resell (优先队列 or 贪心)
  7. cocos creator pc web端 全屏
  8. 面矢量栅格化(python)
  9. proteus虚拟串口实现
  10. 15. 三数之和 (已经解决超时问题,但是依旧时间依旧不乐观)