2016-07-03 朱洁 

元数据的定义元数据(Metadata),为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。

ETL的定义

ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。

ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。

数据不符合分析的要求,所以要准备数据,这个过程就叫ETL。

基于元数据驱动的价值

可以统一数据资产,获取企业数据全局视图。一个好的元数据管理工具,对企业全系统的数据在哪里,都有哪些数据,有一个全局观。缺失元数据管理工具,就只能靠人员经验,谁也说不清楚数据来源,以及作用。

简化etl过程,通过元数据可以构建自动工具,自动基于元数据通过简单的UI操作就可以实现etl过程。简化etl代码编写过程并且etl过程也可以大量的复用。

基于元数据驱动的难点

元数据管理难。数据变化快,传统手工配置的方法很难保证一致性而且是一个工作量巨大的工作。元数据就是企业多数据字典,维护一个完整的元数据,就类似编字典。

涉及到语义管理,不同的表,不同名称的字段,可能是同一含义。相同名称的字段也可能含义不一样,还涉及版本变化。

所以这个工作是个技术+管理的工作。业界有很多公司在思考怎么降低元数据管理难度,所以有利用机器学习自动识别元数据的共识,例如tamr,华傲数据等等。

另外,元数据不仅是etl的基础,也是数据质量/数据治理的基础。

微信扫一扫
关注该公众号

基于元数据驱动的ETL相关推荐

  1. 极光笔记 | 极光基于元数据驱动数据治理浅谈

    作者:极光数据平台部  计算平台组经理 --蔡祖光 前言 极光大数据平台目前支撑着公司开发者.广告.金融风控.行业洞察.公共安全在内的核心业务的数据生产活动,随着公司业务体量的增长,数据平台的规模也在 ...

  2. 元数据驱动设计 —— 为动态移动应用创建Web API

    时间回到多年之前(当时我的头发还没这么稀疏),Google在4月1日这一天发布了Gmail,这不由得令许多人怀疑这个产品是否只是Google精心炮制的一个玩笑.但谁又能够去指责他们的怀疑呢?毕竟整个互 ...

  3. GraphQL及元数据驱动架构在后端BFF中的实践

    GraphQL是Facebook提出的一种数据查询语言,核心特性是数据聚合和按需索取,目前被广泛应用于前后端之间,解决客户端灵活使用数据问题.本文介绍的是GraphQL的另一种实践,我们将GraphQ ...

  4. 元数据驱动设计 —— 设计一套用于API数据检索的灵活引擎

    如果你曾在企业开发方面具有一些经验,那么基本上可以断言,你必定承担过一些类似于搬运工的职责,将数据从你的数据库中不断地搬进搬出.此外,如果你在这方面有过过往的经验,那么你肯定也曾经做过将大量对共享文件 ...

  5. 基于消费者驱动的契约测试

    JB Rainsberger 曾说过,"集成测试是一个陷阱,它像一个自我扩散的病毒,无情地威胁着代码库.项目和团队." 随着微服务系统复杂度的增加,集成测试所带来的弊端愈发明显. ...

  6. 03.基于元数据的管理体系构建---电子签章标准化集成

    集成需求 随着企业数据化的推进,电子签章作为一种常用的技术在慢慢替换部分实物章.基于需求与电子签章流程在系统中集成的标准化工序,将推动统一的模型实现不同厂商的电子签章与元数据平台的集成. 名词解释 序 ...

  7. 元数据驱动的SaaS架构如何设计

    元数据驱动的SaaS架构如何设计 作为业务系统技术开发同学,面向当下:首先应该是快速搭建业务通路,让线上业务跑起来,快速试错,解决生存问题:第二步是在链路通了,业务基本跑起来的基础上如何支撑业务跑更快 ...

  8. 携程技术专家:业务中台建设背景下的元数据驱动架构实践

    点击"技术领导力"关注∆  每天早上8:30推送 来源:携程技术(ID:ctriptech) 作者简介 灿荣,携程软件技术专家,目前关注互联网中台以及中间件领域. 一.背景介绍 为 ...

  9. 干货 | 携程中台化背景下的元数据驱动架构实践

    作者简介 灿荣,携程软件技术专家,目前关注互联网中台以及中间件领域. 一.背景介绍 为解决系统重复建设.能力复用性低的问题,携程启动了中台化建设步伐.旅游行业的中台建设,携程并非从零开始,前期已经积累 ...

最新文章

  1. Android错误之--activity_main cannot be resolved or is not a field
  2. 直接拿来用!最火的iOS开源项目(二)
  3. springboot读取linux文件_SpringBoot读取Resource下文件的几种方式
  4. 2 172.02 php,kafka安装、相关命令以及PHP使用
  5. 剑指 Offer 43. 1~n 整数中 1 出现的次数(数位dp)
  6. 阿里云API网关(18)请求报文和响应报文
  7. Asp.net MVC中使用Razor Generator实现View的单元测试
  8. Tensorflow——placeholder(矩阵运算小实例)
  9. python函数定义及调用-Python函数(函数定义、函数调用)用法详解
  10. 计算机ers,读博、国企、互联网公司该如何选择?
  11. 会议室预约微信小程序推荐_又是BYPASS!微信小程序预约 YEEZY BOOST 350 V2 只要3S就能搞定!...
  12. iphone怎么长截屏_涨知识了!原来苹果手机也可以长截屏,还不知道的,快来学一学...
  13. matlab示波器的峰值测量,峰峰值定义_示波器峰峰值怎么看
  14. QDir类及其用法总结
  15. 计算机的通讯方式有哪些特点,1.串行通信有几种方式?它们的特点分别是什么...
  16. chm文件打不开的办法
  17. 中考考试的指令广播_考试时间指令(铃声).doc
  18. HTTP 错误 404.17 - Not Found 请求的内容似乎是脚本,因而将无法由静态文件处理程序来处理
  19. 3dmax快速实现一个逼真地毯效果
  20. 【python】遍历log查找符合关键字的log

热门文章

  1. 易达项目第一次冲刺周期第十天
  2. MobData|颜值经济背后,该怎样做出爆款医美产品
  3. Qt :圆圈加载进度条(转圈圈)
  4. 如何在30天内,通过TikTok变现一万美金。按照我的方法,你也可以
  5. 2021哈九中高考成绩查询,2021哈尔滨中考生人数或创新高?9大重点600分竞争力排行榜...
  6. word巧妙设置页码(做标书文档设置页码必备方法)
  7. Python-Excel读写:openpyxl模块
  8. Federated Meta-Learning for Fraudulent Credit Card Detection
  9. 前端简易服务器之vscode篇(可供项目预览手机访问电脑网页等)
  10. python3:PyMySQL模块、SQLAlchemy