ETL: Extraction Transformation Loading
ETL全称为 Extraction Transformation Loading。
ETL的基础概念是将业务系统的数据经过抽取(Extraction)、转换(Transformation)、加载(Loading)到数据仓库的过程。
因为有面试需要了解ETL分层建设方法,大致看了些视频。
总结如下:
(1)抽取:抽取指将数据从一个数据源或多个数据源抽取过来的一个动作
数据源有可能是关系型的数据库、表。也可能是文本文件,或者是一个程序的API接口。
(2)转换:在商业智能(BI)里指数据的清洗,合并拆分加工,数据逻辑计算处理的一个过程,通常会按照一定的业务逻辑规则进行计算,最后转换成符合业务模型,分析模型的一个规范性的数据。
简单来说,不管是大数据、小数据都是将不规范的、不可分析的数据转换为规范的、可分析的数据的一个过程。
(3)加载:加载将转换的结果按照分析模型所需要的格式,将数据写入到目标表中,那这些目标表本身就是业务自助分析的数据来源,通常是按照一定的建模方式来组织的,那不管是星型模型,还是雪花型分析模型,那么都是在BI种,我们通常定义的ETL的处理过程。
另外一种ETL(纯数据的处理)
比如说数据库里的数据迁移,多数据源的数据迁移,那么这些是纯数据的开发,也不一定面向BI,可能是业务系统直接的数据转换处理。
ETL基本上都是通过SQL语句实现。
处理分为五大模块:数据抽取、数据清洗、库内转换、规则检查、数据加载。
①数据抽取:确定数据源、定义数据接口、确定数据抽取的方法。
②数据清洗与转换:
1.清洗:主要将不完整的、错误的、重复的数据处理
2.转换:空值处理、数据标准、数据拆分、数据验证、数据替换、数据关联
③数据加载:
1.全量:LOAD
2.增量:根据业务规则MERGE
还有ELT架构。
ETL模式介绍:触发器模式、增量字段、全量同步、日志比对。
①增量抽取机制
②捕获变化数据
③全表删除插入方式
④通过数据库层面的日志来捕获变化数据
ETL: Extraction Transformation Loading相关推荐
- 故障解决:error while loading shared libraries: libncurses.so.5
故障解决:error while loading shared libraries: libncurses.so.5 问题的提出 在我准备调试 Linux-0.11 内核的时候,出现了如下故障(真奇怪 ...
- 启动Nginx时报错:error while loading shared libraries: librdkafka.so.1: cannot open shared object file: No
安装了Nginx之后,启动时报错: error while loading shared libraries: librdkafka.so.1: cannot open shared object f ...
- 异常:Fatal error loading the DB: Invalid argument. Exiting
异常:Fatal error loading the DB: Invalid argument. Exiting docker启动redis:docker start redis ,查看日志 :doc ...
- 普元 AppServer 部署应用时报错:Exception while loading the app : CDI deployment failure
[问题] 部署应用时报错,报错日志如下: Exception while loading the app : CDI deployment failure:WELD-001409:Ambiguous ...
- 关于启动nginx时报错:error while loading shared libraries: libpcre.so.1
今天配置好nginx后在sbin目录下执行 ./nginx时报错如下: error while loading shared libraries: libpcre.so.1: cannot open ...
- Lecture 12 : Nonlinear Transformation
Lecture 12 : Nonlinear Transformation [参考]https://redstonewill.com/246/ [概括] 主要介绍了非线性分类模型: 通过非线性变换,将 ...
- Linux/ubuntu:Chrome报错解决: error while loading shared libraries: libnss3.so libXss.so.1 libasound.so.
下午在用nodejs在linux上操作puppeteer/chromium/chrome时报错如下: -> # node search.js count is 1 (node:15360) Un ...
- 启动 nginx 时报错:error while loading shared libraries:
Nginx 启动出错 error while loading shared libraries: libpcre.so.1 error while loading shared libraries: ...
- linux - python - 异常:error while loading shared libraries
问题描述 error while loading shared libraries: libpython2.7.so.1.0: cannot open shared object file: No s ...
- linux fedora安装、运行mybase7.3.5报错:error while loading shared libraries: libpng12.so.0
直接安装即可: sudo dnf install libpng12 dnf安装的是32位的,在64位系统下无法使用,参考我的下面这篇文章来解决: https://zhangxueliang.blog. ...
最新文章
- [你必须知道的.NET]第二十一回:认识全面的null
- 转载:SecureCRT 唯美配色方案
- Angular项目构建指南 - 不再为angular构建而犹豫不决(转)
- matlab批量生成灰度图像_科学网—matlab彩色图像的批处理转换为灰度、二值和主成分图图像 - 金秀良的博文...
- php怎么添加验证码,PHP添加验证码以及使用
- php 5.6 引用传递,升级到5.6.x后如何在php中修复引用传递
- vue assets图片_Vue实战—如何细化Vue项目目录设计(2)
- 利用计算机进行国际贸易的弊端,国际贸易中的计算机应用体系建设浅析
- python摄像头识别快递单号查询_免费对接快递鸟api单号识别查询接口(python)
- HTML做一个学校网站(纯html代码)
- 单片机c语言程序编写歌谱,51单片机播放音乐简谱的函数库
- win7如何设置wifi热点_教你win7如何设置网络共享文件夹
- Linux bpf 1.1、BPF内核实现
- 《Unsupervised Monocular Depth Learning in Dynamic Scenes》论文笔记
- Zabbix学习笔记(七)---网络波动监控
- 怎么更改當前的USERENV(#39;LANG#39;)返回值 oracle
- 教你免费使用论文检索网,轻松下载
- 关于socket中的send函数
- Galera/mysql 集群 备忘
- 2020年阴历二月十六 读书笔记之漫步华尔街行为金融学