什么是ETL


ETL是一个数据管道,负责将分布的、异构的数据(Extract阶段)根据一定的业务规则进行数据清洗、转换、集成(Transform阶段),最终将处理后的数据加载到数据目的地(Load阶段),比如数据仓库。

数据抽取需要注意的点有哪些?

检查数据类型;
确保数据完整;
去除重复数据;
去除脏数据;
确保导出数据属性与源数据一致

数据抽取有哪几种方式

更新抽取
当源系统中有新的数据加入或发生数据更新操作时,系统会发出提醒。这是最简单的一种数据抽取方式。
全量抽取
当数据源中有新的数据加入或发生数据更新操作时,系统不会发出提醒。此时可以采用全量抽取。全量抽取类似于数据迁移或数据复制。它将数据源中的表或视图的数据原封不动的从数据库中抽取出来,并转换成自己的ETL工具可以识别的格式。全量抽取比较简单,一般只在系统初始化时使用,全量一次后,就要每天采用增量抽取。
增量抽取
当数据源中有新的数据加入或发生数据更新操作时,系统不会发出提醒,但可以识别出更新的数据,此时可以采用增量抽取。增量抽取只抽取自上次抽取以来数据库表中新增或者修改的数据。在ETL中,增量抽取使用更加广泛。

数据加载有哪些方式

全量加载 Full Load
全表清空后再进行数据加载。
从技术角度上说,比增量加载简单。一般只需在数据加载之前,清空目标表,再全量导入源表数据即可。但当源数据量较大 、业务实时性较高时,大批量的数据无法在短时间内加载成功,此时需要与增量加载结合使用。
增量加载 Incremental Load
目标表仅更新源表中变化的数据。
增量加载难度在于更新数据的定位,必须设计明确的规则从数据源中抽取信息发生变化的的数据,并将这些变化的数据在完成相应的逻辑转换后更新到数据目的地中。

增量加载具体有哪些形式

系统日志分析方式
触发器方式
时间戳方式
全表比对方式
增量数据直接或转换后加载

加载方式好坏的评判标准有哪些

可按频率准确地捕获业务系统中的变化数据。
尽量降低对业务系统造成的压力,及对现有业务的影响。
能够很好的实现属性映射。
可快速恢复或回滚数据。

相比较ETL,ELT有哪些优点?

简化ETL架构。数据抽取后无需使用单独的转换引擎,数据转换和消耗在同一个地方。
降低抽取的时间和性能开销。在实际应用中,不同的业务对数据要求存在差异,需要对同一组数据做不同的转换操作。ETL需要多次抽取、转换、加载,而ELT能实现一次抽取、加载,多次转换,实现一份数据多次应用,降低时间和资源开销。

华为大数据HCIE数据挖掘--ETL相关推荐

  1. 2018年全国高校教师“Python编程、应用及华为大数据”培训班

    关于举办2018年全国中高等院校教师 "Python编程.应用及华为大数据"培训班通知 全国各中高等院校计算机.软件等相关院(系): Python是一门免费.开源的跨平台高级动态编 ...

  2. 2018年全国中高等院校教师“Python编程、应用及华为大数据” 、“网络空间安全”、“区块链”培训班...

    关于举办2018年全国中高等院校教师"Python编程.应用及华为大数据" ."网络空间安全"."区块链"培训班通知 全国各中高等院校计算机 ...

  3. 如何入门大数据(数据挖掘方面)

    可供工程师选择的大数据岗位 从雇主需求看,如何发掘自己转岗优势 为转岗工程师提供的建议 ps:本回答较长,读完约要6分钟. 可供工程师选择的大数据岗位 大数据平台/开发工程师 他们的工作重心在于数据的 ...

  4. 2021-03-28为什么用SCALA语言优势在哪里 Scala适合服务端、大数据、数据挖掘、NLP、图像识别、机器学习、深度学习…等等开发。

    Go适合服务端.桌面应用程序开发. Scala适合服务端.大数据.数据挖掘.NLP.图像识别.机器学习.深度学习-等等开发. Python适合做网络爬虫.自动化运维.快速地实现算法的原型. 但是Pyt ...

  5. 华为大数据战略_华为大数据开源战略部部长陈亮 - Apache CarbonData,实现大数据即席查询秒级响应...

    1.实现大数据即席查询秒级响应 2.Liang Chen / 陈 亮 华为大数据开源开发部Leader Apache CarbonData PMC & CommitterEmail:chenl ...

  6. 华为大数据平台凭什么成为行业领跑者?

    每一次研究机构的调研报告总是能爆出大新闻.这不,在最近一期IDC MarketScape的中国大数据管理平台厂商评估中,将华为FusionInsight评为领导者象限第一名.这次评奖,简直是对中国大数 ...

  7. 【爬虫+数据可视化毕业设计:英雄联盟数据爬取及可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩】

    [爬虫+数据可视化毕业设计:英雄联盟数据爬取及可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩] https://b23.tv/TIoy6hj

  8. 一篇让你深度思考的文章|大数据与数据挖掘的相对绝对关系 大数据

    数据不是信息,而是有待理解的原材料.但有一件事是确定无疑的:当NSA为了从其海量数据中"挖掘"出信息,耗资数十亿改善新手段时,它正受益于陡然降落的计算机存储和处理价格. 麻省理工学 ...

  9. 【【数据可视化毕业设计:差旅数据可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩】-哔哩哔哩】 https://b23.tv/iTt30QG

    [[数据可视化毕业设计:差旅数据可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩]-哔哩哔哩] https://b23.tv/iTt30QG ht ...

最新文章

  1. 人脸识别是大势所趋 加速落地“普惠AI”
  2. 编译glib-1.2.20-r5出错./libtool: line 297
  3. ftp在命令行状态下下载跟上传东西
  4. 【直播讲座】用友摩天联合光环国际,听国学学项目管理
  5. 辗转相除求最大公约数
  6. Opportunity search in backend for status - some default system status
  7. c++解析xml文件_XML文件解析实践(DOM解析)
  8. robotframework 测试工具添加PDF文件内容匹配插件
  9. c++中的结构体_C ++中的结构
  10. 盒子模型之边框border
  11. 数学分析:定积分的概念
  12. MAC代码下统计代码行数工具
  13. 每周一学EXCEL函数公式:EXCEL中数值转文本公式TEXT
  14. Delphi王者归来!2018年Delphi精英奖揭晓!
  15. lscpu与cat /proc/cpuinfo获取的CPU信息释义
  16. Python学习-----起步4(列表元素的添加,删除,修改,查询,获取长度)
  17. 照片批量重命名为拍摄日期
  18. 《纸牌屋》——交换才是硬道理?
  19. 基于eNSP中大型校园/企业网络规划与设计_ensp综合大作业(ensp综合实验)
  20. 超分辨率图像重建-拉普拉斯金字塔(laplacian pyramid)

热门文章

  1. 跨域的十种解决方案详解(总结)
  2. zabbix设置中文字体
  3. iconv java_如何使用iconv(3)将宽字符串转换为UTF-8?
  4. 计算机审计工作底稿功能,计算机审计2.ppt
  5. HTML span元素
  6. LeetCode螺旋矩阵
  7. 登录王者荣耀显示服务器连接错误,王者荣耀登录操作失败怎么回事?请稍后再试解决办法[多图]...
  8. JS和JSP之间的区别
  9. 专升本上岸,一切从头开始
  10. 佛经典籍,奇文共欣赏