1

ETL,Extraction-Trasformation-Loading,即数据读取,转换,装载的过程,是构建数据仓库的重要环节。

ETL是将业务系统的数据经过抽取,清洗转换之后加载到数据仓库的过程,目的是将企业中的额分散的,零乱的,标准不统一的数据整合到一起,为企业决策提供分析依据。ETL是BI项目中重要的一个环节。

数据抽取:把不同的数据源数据抓取过来,存到某个地方。例如:网络爬虫。

数据清洗:过滤那些不符合要求的数据或者修正数据之后再抽取。清洗包括以下几种不符合要求的数据:

1、不完整的数据:数据缺失需要不全才能写入数据仓库。

2、错误的数据:格式错误,日期越界,或者多了一个空格等。

3、重复的数据:重复数据记录的所有字段都要去重。

数据转换:不一致的数据转换。统一编码。

ETL的实现方法:

1、借助ETL工具。(如OWB,DTS,SSIS等)实现。

2、SQL方法实现。

3、ETL工具与SQL相结合。

工具降低难度,但缺少灵活性。SQL灵活但编码复杂,因此结合两者。

2

大数据平台架构

首先,对于做大数据开发而言,平台的监控与报警和平台管理不归我们管,主要是给运维人员做的事情。我们要做的就是中间的事情。

然后来看看数据基础平台接入层,获取数据,一般用Canal,Sqoop与Flume。存储层,当我们拿到数据以后,我们需要找个地方存储,首选HDFS(分布式文件系统,前面讲过),这里就是作为一个存储层。另外还有HBase,可以称作大数据中的数据库。Kafka的话一般会跟Flume作为一个组合。调度层,就是把计算层的计算放到调度层运行。如前面讲的小案例,就是把mapreduce放到yarn上面去运行。计算层,就是对数据的处理运算。

接着看数据应用平台元数据管理。这边的元数据要存储到关系型数据库中。作业平台管理,就是任务调度。交互分析就关系到sql语句。多维分析主要是对数据的维度分析,如按年分析,按月分析,按周分析等。数据可视化,展示数据,供给决策。

最后看看数据应用。一般做的就是流量统计和用户行为分析,做数据展示。

3

系统数据流动

最左边是数据来源,可以看到,一个是来自日志数据,另外一个是来源于关系型数据库。

实时流。拿到数据后直接存入kafka或者是hdfs中进行缓存,如果此时计算层需要调度数据,可以直接从kafka中直接消费。计算完后对数据存储还可以存储回kafka或者放到HBase或mysql,从而作为业务上的使用。

离线流,存储到hdfs然后由MR调用,接着是ETL对数据的处理,处理完后将数据存储到关系型数据库,最后可以做出BI报表展示。

这边的话可能我的逻辑也有点乱...主要还是看图分析吧。

大数据平台架构+ETL相关推荐

  1. 软件架构设计原则和大数据平台架构层

    1.软件架构设计的六大原则: 1)"开-闭"原则(OCP) Software entities should be open forextension, but closed fo ...

  2. 硅谷企业的大数据平台架构什么样?看看Twitter、Airbnb、Uber的实践

    导读:本文分析一下典型硅谷互联网企业的大数据平台架构. 作者:彭锋 宋文欣 孙浩峰 来源:大数据DT(ID:hzdashuju) 01 Twitter的大数据平台架构 Twitter是最早一批推进数字 ...

  3. 大数据平台架构包括哪些方面

    大数据平台将互联网使用和大数据产品整合起来,将实时数据和离线数据打通,使数据能够实现更大规模的相关核算,挖掘出数据更大的价值,然后实现数据驱动事务,那么大数据平台架构如何进行?包括哪些方面呢? 1.事 ...

  4. 大数据平台架构技术选型与场景运用

    内容来源:2017年5月6日,大眼科技CTO张逸在"魅族技术开放日第八期--数据洞察"进行<大数据平台架构技术选型与场景运用>演讲分享.视频地址:https://mp. ...

  5. 大数据平台架构的层次划分

    1. 数据源层:包括传统的数据库,数据仓库,分布式数据库,NOSQL数据库,半结构化数据,无结构化数据,爬虫,日志系统等,是大数据平台的数据产生机构. 2. 数据整理层:包括数据清洗.数据转换.数据加 ...

  6. 数据产品经理修炼手册_数据产品经理需要了解的大数据平台架构

    了解大数据平台的基础架构有助于我们清楚数据是怎么流转与处理的,在每一层的结构中数据是以什么形式存储的,当我们听到工程师们谈论到这些内容时,不至于一无所知. 本文内容偏基础,适合像作为入门了解. 文不如 ...

  7. 大数据平台架构及主流技术栈

    互联网和移动互联网技术开启了大规模生产.分享和应用数据的大数据时代.面对如此庞大规模的数据,如何存储?如何计算?各大互联网巨头都进行了探索.Google的三篇论文 GFS(2003),MapReduc ...

  8. 大数据平台架构浅析——以讯飞大数据平台Odeon为例

    文章目录 大数据平台架构解析--以讯飞大数据平台Odeon为例 定义 功能 数据采集 数据开发 数据分析 数据编程 补充 大数据平台架构解析--以讯飞大数据平台Odeon为例 定义 Odeon大数据平 ...

  9. hadoop大数据平台架构之DKhadoop详解

    hadoop大数据平台架构之DKhadoop详解 大数据的时代已经来了,信息的爆炸式增长使得越来越多的行业面临这大量数据需要存储和分析的挑战.Hadoop作为一个开源的分布式并行处理平台,以其高拓展. ...

最新文章

  1. 服务机器人传感器应用
  2. 贪吃蛇原型实现基本思路
  3. 敏捷开发的45个好习惯
  4. 前端学习(3302):createRef
  5. 卡尔曼滤波原理(2)
  6. Kruskal算法的C++语言程序
  7. 字符串怎样实例化成对象
  8. sysV init服务脚本(入门级)
  9. mac电脑双开微信的方法
  10. 【项目】数据仓库概述
  11. OpenGL 渲染管线理论
  12. 你是否同意放开二胎政策
  13. 用python画皮卡丘
  14. OpenCV 安卓编程示例:1~6 全
  15. 双鱼直播动态调试 .so文件输出密匙
  16. 服务器多网卡多路由策略
  17. C语言学习——从零开始学编程(第三篇:选择与循环)
  18. elasticsearch 中文API river
  19. python和按键精灵自动化测试_高级版按键精灵,同时也是UI自动化测试的好帮手 - SIKULI...
  20. come down the pipe是什么意思?

热门文章

  1. Oracle官方文档日记
  2. cmmi实践访谈测试ppt_计划并实施CMMI_实践篇精选.ppt
  3. 150个超实用的网站,整理成资源库页面分享给大家
  4. 理光 java,理光打印机驱动安装步骤,以及如何设置打印机的IP地址
  5. 【硅谷课堂】腾讯云点播WEB上传方式代码(第二种方式)
  6. arduinohanshu_Arduino 函数的位操作
  7. linux特殊文件权限
  8. 锈才学设计模式之 —— 策略模式(Strategy Pattern)
  9. SPSS数据分析之描述分析
  10. 编写自己的模块化php框架,ZTBCMS 基于 ThinkPHP 的高性能 模块化 快速开发框架 - 文章教程...