目录

  • 一、为什么要进行数据分层?数据分层的好处?
    • 1、原因
    • 2、好处
  • 二、hive数仓分为哪几层?
    • 1、ODS层:数据运营层(贴源层)
    • 2、DW层: 数据仓库层
      • (1)DWD层:数据明细层
      • (2)DWM层:数据中间层
      • (3)DWS层:数据汇总层(服务)
    • 3、ADS层:应用层

一、为什么要进行数据分层?数据分层的好处?

1、原因

对数据进行分层的一个主要原因就是希望在管理数据的时候,能对数据有一个更加清晰的掌控。

2、好处

清晰数据结构:每一个数据分层都有它的作用域,这样我们在使用表的时候能更方便地定位和理解。
数据血缘追踪:简单来讲可以这样理解,我们最终给业务呈现的是一张能直接使用的张业务表,但是它的来源有很多,如果有一张来源表出问题了,我们希望能够快速准确地定位到问题,并清楚它的危害范围。
减少重复开发:规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算。
把复杂问题简单化:将一个复杂的任务分解成多个步骤来完成,每一层只处理单一的步骤,比较简单和容易理解。而且便于维护数据的准确性,当数据出现问题之后,可以不用修复所有的数据,只需要从有问题的步骤开始修复。
屏蔽原始数据的异常:屏蔽业务的影响,不必改一次业务就需要重新接入数据。

二、hive数仓分为哪几层?

来源于各种途径的日志表(以json格式存在的数据),通过工具解析传入ODS层

1、ODS层:数据运营层(贴源层)

这一层是最贴近源数据的一层,数据源中的数据经过抽取、洗净、传输,装入本层,一般来讲数据不需要进行过多的数据清洗工作,原封不动的接入原始数据即可,至于数据的去噪、去重、异常值处理等过程可以放在后面DW层来做

作用
这一层的作用相当于是一个接口层,用来引入数据。
例如:
把1号一天的数据存储起来,等待2号集中处理这些数据,这我们叫做T+1模式,这有一个调度平台,可以定时,在凌晨0点的时候将数据存入ODS层,如果出错就会发出预警,将错误信息发送到手机,然后你去处理

我们需要做的是?
建好表。
例如:
我们建表的时候创建一个varchar(20)类型的表格,这时候来了一个varchar(30)类型的数据,这个时候就会报错,程序就会无法继续运行。所以一应要建好表

2、DW层: 数据仓库层

(1)DWD层:数据明细层

对ODS层做预处理,根据需求对数据进行处理,例如给定一些数据ID、name、age、region、user_type,这其中有中文,就可以将这些中文使用case when *** then ** end方式增加一个标签代表这个数据

(2)DWM层:数据中间层

该层会在DWD层的数据基础上,对数据做轻度的聚合操作,生成一系列的中间表,提升公共指标的复用性,减少重复加工。直观来讲,就是对通用的核心维度进行聚合操作,算出相应的统计指标。

(3)DWS层:数据汇总层(服务)

将上一层处理过的数据进行汇总,一遍进行后续查询

3、ADS层:应用层

在DW层处理完成的数据通过工具进行可视化加工,当数据处理完成存储在Hive中,处理完成的数据可以通过ETL工具推送到关系型数据库中(例如Mysql),一般情况下,数据都有一个储存周期,400天左右,我们使用的可视化-工具平台(基于关系型数据库Mysql储存时间400天左右),可以进行同比(年)、环比(月),这些数据形成一个数据集(结果),最后一步就是根据业务需求来配置报表

感谢阅读,我是啊帅和和,以为大数据专业大四学生,祝你快乐。

Hive数据仓库分层架构相关推荐

  1. B06 - 004、数据仓库分层架构

    初学耗时:0.5h 注:CSDN手机端暂不支持章节内链跳转,但外链可用,更好体验还请上电脑端. 一.数据仓库分层架构   1.1  数据仓库架构分层.   1.2  数据仓库架构分层详解.   1.3 ...

  2. 一文带你认清数据仓库“维度模型设计”与“分层架构” | 原力计划

    作者 | Alice菌 责编 | 王晓曼 出品 | CSDN博客 数据仓库纬度模型设计 1. 纬度建模基本概念 维度模型是数据仓库领域大师Ralph Kimall所倡导,他的<数据仓库工具箱&g ...

  3. 五、Hive数据仓库(完整版)

    1.数据仓库的介绍 1.1. 数据仓库的基本概念 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH.数据仓库顾名思义,**是一个很大的数据存储集合,出于企业的分析性报告和决策支持 ...

  4. 数据仓库面试题——数据仓库分层

    答案来源:大数据面试题V3.0,523道题,679页,46w字 问过的一些公司:字节 x 2,字节(2021.07)-(2021.08)-(2021.10),阿里 x 2,爱奇艺,百度 x 2,百度( ...

  5. 数据仓库分层设计(基于Hive)

    1.数据仓库逻辑分层架构 先来看数据仓库的逻辑分层架构: 分层名称可能不一样,但基本是都是这样 想要看懂数据仓库的逻辑分层架构,先要弄懂以下概念 数据源 : 数据来源,互联网公司的数据来源随着公司的规 ...

  6. 1、Hive数据仓库——概念及架构

    文章目录 Hive 1.2.1 大数据体系概述 Hive架构 数据仓库 Hive 是什么 Hive的安装 版本介绍 学习Hive 安装主要流程 Hive与传统数据库比较 Hive的存储格式 TextF ...

  7. 数据仓库的架构与设计

    https://blog.csdn.net/trigl/article/details/68944434 公司之前的数据都是直接传到Hdfs上进行操作,没有一个数据仓库,趁着最近空出几台服务器,搭了个 ...

  8. oracle 数据立方_大数据之数据仓库分层

    大数据之数据仓库分层 1. 什么是数据分层? 2. 数据分层的好处 一种通用的数据分层设计 3. 举例 4. 各层会用到的计算引擎和存储系统 5. 分层实现 6.数据分层的一些概念说明 7.大数据相关 ...

  9. 数仓(四)数据仓库分层

    上一节我们了解了数仓中常见的两大建模体系:关系建模和维度建模,并论述了维度建模的4个步骤. 数仓(二)关系建模和维度建模 数仓(三)简析阿里.美团.网易.恒丰银行.马蜂窝5家数仓分层架构 其实数仓建模 ...

最新文章

  1. 水题/poj 1852 Ants
  2. java软件测试黑盒工具,软件测试中的抽象层次系列之一 – 黑盒与白盒
  3. C#自定义控件一下拉颜色框
  4. 好想学python机器人_【Python成长之路】从零学GUI -- 制作智能聊天机器人
  5. 计算机四级软件工程知识点,计算机四级考点
  6. Windows phone msdn 索引
  7. 分页和条件查询接口开发
  8. python项目实战:绘制一朵漂亮的玫瑰花
  9. React学习小结(二)
  10. java 预处理语句_预处理语句PreparedStatement到底咋用啊
  11. JVM从入门到放弃——JVM内存模型
  12. 2017.10.31笔记
  13. C 库函数 - atoi() 字符串中的数字转换为一个整型
  14. 傅立叶变换,时域,频域二
  15. PXE+Kickstart无人值守安装操作系统
  16. maya导入abc动画_大佬养成宝典:教你四十二招玩转MAYA(三)
  17. java流分类_什么是流分类-JAVA中什么是流?流经常按照哪几种方式分类,每种方式又将流各分? 爱问知识人...
  18. BZOJ 5477: 星际穿越
  19. UE支持的Codec对比
  20. 读名老中医之路笔记(三)

热门文章

  1. java常用开发工具
  2. 【Lin-CMS内容管理系统框架 v0.3.6】内置用户管理/权限管理/日志系统等常见功能
  3. 【Linux操作系统总结】梳理操作系统源码
  4. 高级电气PLC控制实训设备
  5. PIC16F1823开发笔记(二)芯片研究以及第一个程序和汇编研究
  6. 精彩回顾:2020年自动化软件测试质量峰会
  7. Waymo说Uber偷了他们的无人驾驶机密,并把Uber告上了法庭
  8. 录屏截图工具-超级录屏
  9. 看好豪爵的摩托车,程序员也要放飞自我,想做的事情就要去做,省的以后没有机会而后悔。
  10. python shell怎么运行字符串拼接无输出_Python拼接字符串的7种方法总结