如何搭建一个数据仓库? 下面大体说明了搭建的流程。

数据仓库的结构

用一幅图来表示:

数据仓库的好处

数据仓库是一套体系。可以建在Oracle上,MySQL上,Hive上,MaxCompute上,具体建在哪个平台根据数据量来定。对数据仓库来说,建在哪个平台不重要,重要的是目的。

数据仓库的目的,是对组织的数据进行统一的治理,归纳来讲,就是:存、通、用。

存:是指数据的统一存储。数据放在一起了,meta才能在一起,便于后续的计算。

通:是指数据的梳理,集中式的数据存储自然而然带来数据的集中管理。便于企业梳理内部的数据,这个是最能刺痛规模比较大,业务比较繁杂的企业的。

用:就是在梳理好内部数据资产后,可以看到那些数据可以做链接。那些业务可以合作。自己还缺少哪些数据。

存偏向于存储,通偏向于数据管理,用偏向于数据计算,也就是业务创新。

业务的野蛮生长总会遇到瓶颈,这个时候就需要有内在驱动的业务创新。数据是指导组织二次创业的好依据。by 山水

主要的流程

简单的来说,就是包括:数据源、ODS、DW(DM)、报告这几部分。

主要有这么几个流程:

数据源到ODS,需要考虑:

数据源的平台有哪些,比如Oracle,MySQL,文本文件,每个平台有哪些可用的同步工具

数据有哪些,数据字典有没有

哪些表全量同步

哪些表增量同步,如何取增量数据

同步周期,按小时,按天,按周,按月?

数据量评估:存量数据有多大,增量数据每天有多少

历史保留多久

数据正确性校验

调度、监控、报警

ODS到DW(DM),刚开始可以考虑建立数据集市(DM),待对数据,对业务足够理解,人足够多的时候,考虑建立数据仓库(DW),需要考虑:

熟悉数据字典,理解业务,理解数据

事实表要建哪些

维度表要建哪些

更新周期,按小时,按天,按周,按月?

数据量评估:存量数据有多大,增量数据每天有多少

历史保留多久

验数

调度、监控、报警

报告,这个是给业务、决策层看的,是体现价值的地方

统计口径的确定

验数:验证数据是否正确

如何展示:是表格、图形,还是大屏?

用到的工具

在建设数据仓库的时候,需要使用一系列的工具。

数据源到ODS

ETL工具,比如kettle

ODS到DW(DM)

SQL

报告

报表平台

整个流程通过 调度工具 串起来

调度工具需要解决:

任务依赖

周期性执行

监控,报警

日志

后续的工作

迭代!

迭代!

迭代!

mysql数据仓库搭建_搭建数据仓库的流程简介相关推荐

  1. 数仓dw怎么建_搭建数据仓库的流程简介

    如何搭建一个数据仓库? 下面大体说明了搭建的流程. 数据仓库的结构 用一幅图来表示: 数据仓库的好处 数据仓库是一套体系.可以建在Oracle上,MySQL上,Hive上,MaxCompute上,具体 ...

  2. 搭建数据仓库的流程简介

    如何搭建一个数据仓库? 下面大体说明了搭建的流程. 数据仓库的结构 用一幅图来表示: 数据仓库的好处 数据仓库是一套体系.可以建在Oracle上,MySQL上,Hive上,MaxCompute上,具体 ...

  3. doctor mysql数据导入_线上环境mysql主从同步的搭建过程

    之前搭建过一套主从同步的mysql集群,但是是基于新数据库,而这次线上环境要升级成主从同步的集群,记录一下升级过程和中间遇到的各种问题. 由于是直接对线上数据库进行修改,因此要保证对线上环境造成尽量小 ...

  4. solr mysql数据注入_(solr系列:四)将mysql数据库中的数据导入到solr中

    在前面的博文中,已完成了在tomcat中对solr的部署,为solr添加了一个自定义的core,并且引入了ik分词器. 那么该如何将本地的mysql的数据导入到solr中呢? 准备工作: 1.mysq ...

  5. jena 开发之 mysql数据导入_在Jena框架下基于MySQL数据库实现本体的存取操作

    转自:http://blog.csdn.net/jtz_mpp/article/details/6224311 最近在做一个基于本体的管理系统.其中对本体的操作部分,我使用的是Jena框架:数据模型是 ...

  6. mysql 数据分组_详解MySQL 数据分组

    创建分组 分组是在select语句中的group by 子句中建立的. 例: select vend_id, count(*) as num_prods from products group by ...

  7. 将Excel表格导入mysql数据表_如何把Excel导入mysql数据表的方法详解

    把Excel导入mysql数据表其实是一件非常的简单的事情了,我们可以通过多种方法来实现了,下面我们来看一些关于小编整理的把Excel导入mysql数据表的方法了. 方法一 把Excel导入mysql ...

  8. mysql数据漂移_数据库漂移-和数据库漂移相关的内容-阿里云开发者社区

    MySQL双主一致性架构优化 | 架构师之路 一.双主保证高可用 MySQL数据库集群常使用一主多从,主从同步,读写分离的方式来扩充数据库的读性能,保证读库的高可用,但此时写库仍然是单点. 在一个My ...

  9. 怎么监控mysql数据变化_实时监控mysql数据库变化

    对于二次开发来说,很大一部分就找找文件和找数据库的变化情况 对于数据库变化.还没有发现比较好用的监控数据库变化监控软件. 今天,我就给大家介绍一个如何使用mysql自带的功能监控数据库变化 1.打开数 ...

最新文章

  1. 做好网站SEO优化都需要坚持什么?
  2. KPROCESS 结构体属性介绍
  3. cmake 指定编译器_我们需要懂得CMake文件
  4. 《设计模式系列》---工厂方法
  5. TypeError: Router.use() requires a middleware function but got a Object报错解决
  6. 使用iOS 4越狱iPhone或iPod Touch
  7. java 异常 最佳实践_处理Java异常的10种最佳实践
  8. ORB_SLAM3编译
  9. 单目相机与激光标定相关文章与代码(草稿)
  10. 数据库学习----MySQL(一)
  11. LNMP搭建kodcloud个人私有网盘
  12. skynet框架应用 (十四) 登录服务
  13. 干货|遗传+禁忌混合算法(HA)算法求解柔性作业车间调度问题(FJSP)附java代码-第一部分
  14. import java.sql.*;问题:The package java.sql is not accessible
  15. oracle报错——字符集不匹配
  16. 考研英语阅读理解错8个,我今年会不会凉?
  17. [PC] 2015 僵尸 ZOMBI
  18. java计算机毕业设计中医药科普网站源码+mysql数据库+系统+lw文档+部署
  19. 软件设计一点通 | 抽象文档模式详解
  20. 超碰网站源码搭建教程超碰在线视频搭建超碰网站搭建教程

热门文章

  1. 数据分析经典图书推荐
  2. java计算机毕业设计鞋店销售管理源程序+mysql+系统+lw文档+远程调试
  3. 面部表情识别1:表情识别数据集(含下载链接)
  4. (三)、 FDK三维图像重建---详细长文,一文让你学会三维重建
  5. GEE数据集:ERA5 每日汇总 - 由 ECMWF / Copernicus Climate Change Service制作的最新气候再分析数据集
  6. python程序写蛇_如何用Python画一条蛇
  7. 巨头蜂拥的生鲜赛道,谁能遨游下一个红海?
  8. 阿里UC岳鹰全景监控平台整体架构
  9. 案例一:欧洲城市人口
  10. OpenMv单颜色彩色识别