mysql数据仓库搭建_搭建数据仓库的流程简介
如何搭建一个数据仓库? 下面大体说明了搭建的流程。
数据仓库的结构
用一幅图来表示:
数据仓库的好处
数据仓库是一套体系。可以建在Oracle上,MySQL上,Hive上,MaxCompute上,具体建在哪个平台根据数据量来定。对数据仓库来说,建在哪个平台不重要,重要的是目的。
数据仓库的目的,是对组织的数据进行统一的治理,归纳来讲,就是:存、通、用。
存:是指数据的统一存储。数据放在一起了,meta才能在一起,便于后续的计算。
通:是指数据的梳理,集中式的数据存储自然而然带来数据的集中管理。便于企业梳理内部的数据,这个是最能刺痛规模比较大,业务比较繁杂的企业的。
用:就是在梳理好内部数据资产后,可以看到那些数据可以做链接。那些业务可以合作。自己还缺少哪些数据。
存偏向于存储,通偏向于数据管理,用偏向于数据计算,也就是业务创新。
业务的野蛮生长总会遇到瓶颈,这个时候就需要有内在驱动的业务创新。数据是指导组织二次创业的好依据。by 山水
主要的流程
简单的来说,就是包括:数据源、ODS、DW(DM)、报告这几部分。
主要有这么几个流程:
数据源到ODS,需要考虑:
数据源的平台有哪些,比如Oracle,MySQL,文本文件,每个平台有哪些可用的同步工具
数据有哪些,数据字典有没有
哪些表全量同步
哪些表增量同步,如何取增量数据
同步周期,按小时,按天,按周,按月?
数据量评估:存量数据有多大,增量数据每天有多少
历史保留多久
数据正确性校验
调度、监控、报警
ODS到DW(DM),刚开始可以考虑建立数据集市(DM),待对数据,对业务足够理解,人足够多的时候,考虑建立数据仓库(DW),需要考虑:
熟悉数据字典,理解业务,理解数据
事实表要建哪些
维度表要建哪些
更新周期,按小时,按天,按周,按月?
数据量评估:存量数据有多大,增量数据每天有多少
历史保留多久
验数
调度、监控、报警
报告,这个是给业务、决策层看的,是体现价值的地方
统计口径的确定
验数:验证数据是否正确
如何展示:是表格、图形,还是大屏?
用到的工具
在建设数据仓库的时候,需要使用一系列的工具。
数据源到ODS
ETL工具,比如kettle
ODS到DW(DM)
SQL
报告
报表平台
整个流程通过 调度工具 串起来
调度工具需要解决:
任务依赖
周期性执行
监控,报警
日志
后续的工作
迭代!
迭代!
迭代!
mysql数据仓库搭建_搭建数据仓库的流程简介相关推荐
- 数仓dw怎么建_搭建数据仓库的流程简介
如何搭建一个数据仓库? 下面大体说明了搭建的流程. 数据仓库的结构 用一幅图来表示: 数据仓库的好处 数据仓库是一套体系.可以建在Oracle上,MySQL上,Hive上,MaxCompute上,具体 ...
- 搭建数据仓库的流程简介
如何搭建一个数据仓库? 下面大体说明了搭建的流程. 数据仓库的结构 用一幅图来表示: 数据仓库的好处 数据仓库是一套体系.可以建在Oracle上,MySQL上,Hive上,MaxCompute上,具体 ...
- doctor mysql数据导入_线上环境mysql主从同步的搭建过程
之前搭建过一套主从同步的mysql集群,但是是基于新数据库,而这次线上环境要升级成主从同步的集群,记录一下升级过程和中间遇到的各种问题. 由于是直接对线上数据库进行修改,因此要保证对线上环境造成尽量小 ...
- solr mysql数据注入_(solr系列:四)将mysql数据库中的数据导入到solr中
在前面的博文中,已完成了在tomcat中对solr的部署,为solr添加了一个自定义的core,并且引入了ik分词器. 那么该如何将本地的mysql的数据导入到solr中呢? 准备工作: 1.mysq ...
- jena 开发之 mysql数据导入_在Jena框架下基于MySQL数据库实现本体的存取操作
转自:http://blog.csdn.net/jtz_mpp/article/details/6224311 最近在做一个基于本体的管理系统.其中对本体的操作部分,我使用的是Jena框架:数据模型是 ...
- mysql 数据分组_详解MySQL 数据分组
创建分组 分组是在select语句中的group by 子句中建立的. 例: select vend_id, count(*) as num_prods from products group by ...
- 将Excel表格导入mysql数据表_如何把Excel导入mysql数据表的方法详解
把Excel导入mysql数据表其实是一件非常的简单的事情了,我们可以通过多种方法来实现了,下面我们来看一些关于小编整理的把Excel导入mysql数据表的方法了. 方法一 把Excel导入mysql ...
- mysql数据漂移_数据库漂移-和数据库漂移相关的内容-阿里云开发者社区
MySQL双主一致性架构优化 | 架构师之路 一.双主保证高可用 MySQL数据库集群常使用一主多从,主从同步,读写分离的方式来扩充数据库的读性能,保证读库的高可用,但此时写库仍然是单点. 在一个My ...
- 怎么监控mysql数据变化_实时监控mysql数据库变化
对于二次开发来说,很大一部分就找找文件和找数据库的变化情况 对于数据库变化.还没有发现比较好用的监控数据库变化监控软件. 今天,我就给大家介绍一个如何使用mysql自带的功能监控数据库变化 1.打开数 ...
最新文章
- 做好网站SEO优化都需要坚持什么?
- KPROCESS 结构体属性介绍
- cmake 指定编译器_我们需要懂得CMake文件
- 《设计模式系列》---工厂方法
- TypeError: Router.use() requires a middleware function but got a Object报错解决
- 使用iOS 4越狱iPhone或iPod Touch
- java 异常 最佳实践_处理Java异常的10种最佳实践
- ORB_SLAM3编译
- 单目相机与激光标定相关文章与代码(草稿)
- 数据库学习----MySQL(一)
- LNMP搭建kodcloud个人私有网盘
- skynet框架应用 (十四) 登录服务
- 干货|遗传+禁忌混合算法(HA)算法求解柔性作业车间调度问题(FJSP)附java代码-第一部分
- import java.sql.*;问题:The package java.sql is not accessible
- oracle报错——字符集不匹配
- 考研英语阅读理解错8个,我今年会不会凉?
- [PC] 2015 僵尸 ZOMBI
- java计算机毕业设计中医药科普网站源码+mysql数据库+系统+lw文档+部署
- 软件设计一点通 | 抽象文档模式详解
- 超碰网站源码搭建教程超碰在线视频搭建超碰网站搭建教程
热门文章
- 数据分析经典图书推荐
- java计算机毕业设计鞋店销售管理源程序+mysql+系统+lw文档+远程调试
- 面部表情识别1:表情识别数据集(含下载链接)
- (三)、 FDK三维图像重建---详细长文,一文让你学会三维重建
- GEE数据集:ERA5 每日汇总 - 由 ECMWF / Copernicus Climate Change Service制作的最新气候再分析数据集
- python程序写蛇_如何用Python画一条蛇
- 巨头蜂拥的生鲜赛道,谁能遨游下一个红海?
- 阿里UC岳鹰全景监控平台整体架构
- 案例一:欧洲城市人口
- OpenMv单颜色彩色识别