第8章 大数据领域建模综述

1.为什么需要数据建模

为了更好的将数据进行有序、有结构地分类组织和存储。数据模型就是数据组织和存储方法,它强调从业务、数据存取和使用角度合理存储数据。
数据建模的好处:

性能:良好的数据模型能帮助我们快速查询所需要的数据,减少数据的 110 吞吐。
成本:良好的数据模型能极大地减少不必要的数据冗余,也能实现计算结果复用,极大地降低大数据系统中的存储和计算成本。
效率:良好的数据模型能极大地改善用户使用数据的体验,提高使用数据的效率。
质量:良好的数据模型能改善数据统计口径的不一致性,减少数据计算错误的可能性。

2.关系数据库系统和数据仓库

E . F .Codd是关系数据库的鼻祖,它首次提出了数据库系统的关系模型,开创了数据库关系方法和关系数据理论的研究。

两者的关系:大量的数据仓库系统依托强大的关系数据库能力存储和处理数据,其采用的数据模型发放也是基于关系数据库理论的。

3.从OLTP和OLAP系统的区别看模型方法论的选择

On-Line Transaction Processing联机事务处理过程(OLTP),也称为面向交易的处理过程,其基本特征是前台接收的用户数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果,是对用户操作快速响应的方式之一。
On-Line Analytical Processing联机分析处理过程(OLAP)。OLAP对业务数据执行多维分析,并提供复杂计算,趋势分析和复杂数据建模的能力。它主要用于支持企业决策管理分析,是许多商务智能(BI)应用程序背后的技术。OLAP使最终用户可以对多个维度的数据进行即席分析,从而获取他们所需知识,以便更好地制定决策。OLAP技术已被定义为实现“快速访问共享的多维信息”的能力。

OLTP 系统通常面向的主要数据操作是随机读写,主要采用满足3NF 实体关系模型存储数据,从而在事务处理中解决数据的冗余和一致性问题。
OLAP 系统面向的主要数据操作是批量读写,事务处理一致性不是 OLAP 关注的,其主要关注数据的整合,以及在的复杂大数据查询和处理中的性能,因此它需要采用一些不同的数据模方法。

4. 典型的数据仓库建模方法论

  • ER模型

数据仓库之父 Bill lnmon 提出的建模方法是从全企业的高度设计3NF 模型,用实体关系( Entity Relationship, ER )模型描述企业业务,在范式理论上符合 3NF 。
特点

需要全面了解企业业务和数据
实施周期非常长。
对建模人员的能力要求非常高

建模步骤

高层模型:一个高度抽象的模型,描述主要的主题以及主题间的关系,用于描述企业的业务总体概况。
中层模型:在高层模型的基础上,细化主题的数据项。
物理模型(也叫底层模型):在中层模型的基础上,考虑物理存储,同时基于性能和平台特点进行物理属性的设计,也可能做一些表的合并、分区的设计等。

  • 维度模型

维度模型是数据仓库领域的 Ralph Kimball 大师所倡导的,他的 The Data rehouse Tolkit-The Complete Guide to Dimensional Modeling数据仓库工程领域最流行的数据仓库建模的经典。
建模步骤

选择需要进行分析决策的业务过程。业务过程可以是单个业务事件,比如交易的支付、退款等;也可以是某个事件的状态,比如当前的账户余额等;还可以是一系列相关业务事件组成的业务流程,具体需要看我们分析的是某些事件发生情况,还是当前状态,或是事件流转效率。
选择粒度。在事件分析中,我们要预判所有分析需要细分的程度,从而决定选择的粒度。粒度是维度的一个组合。
识别维表。选择好粒度之后,就需要基于此粒度设计维表,包括维度属性,用于分析时进行分组和筛选。·选择事实。确定分析需要衡量的指

  • Data Vault模型

Data Vault Dan Linstedt 发起创建的一种模型,它是ER模型的衍生,其设计的出发点也是为了实现数据的整合,但不能直接用于数据分析决策。
组成

Hub :是企业的核心业务实体,由 实体 key 、数据仓库序列代理键、装载时间、数据来源组成。
Link :代表 Hub 之间的关系。这里与 模型最大的区别是将关系作为一个独立的单元抽象,可以提升模型的扩展性。它可以直接描述 : :n n:n 的关系,而不需要做任何变更。它由 Hub的代理键、装载时间、数据来源组成。
Satellite :是 Hub 的详细描述内容, 一个 ub 可以有多个 Satellite它由 Hub 的代理键、装载时间、来源类型、详细的 Hub 描述信息组成。

模型实例

  • Anchor模型

Anchor Data Vault 模型做了进一步规范化处理, Lars. Ri:innback 的初衷是设计 个高度可扩展的模型,其核心思想是所有的扩展只是添加而不是修改,因此将模型规范到 6NF ,基本变成了 k-v 结构化模型。

组成

Anchors :类似于 Data Vault Hub ,代表业务实体,且只有主键。
Attributes :功能类似于 Data Vault Satellite ,但是它更加规范化,将其全部 k-v 结构化, 个表只有 Anchors 的属性描述。
Ties :就是 Anchors 之间的关系,单独用表来描述,类似于 DataVault Link ,可以提升整体模型关系的扩展能力。
Knots :代表那些可能会在 Anchors 中公用的属性的提炼,比如性别、状态等这种枚举类型且被公用的属性

模型图

数据模型篇之大数据领域建模综述相关推荐

  1. 《大数据之路:阿里巴巴大数据实践》-第2篇 数据模型篇 -第8章 大数据领域建模综述

    <大数据之路:阿里巴巴大数据实践>系列丛书  第1章 总述 第1篇 数据技术篇  第2章 日志釆集  第3章 数据同步  第4章 离线数据开发  第5章 实时技术  第6章 数据服务  第 ...

  2. 数据仓库系列篇——唯品会大数据架构

    https://zhuanlan.zhihu.com/p/45123018 What--大数据&数据仓库 什么是大数据? * 广义的大数据是指:无法用现有的软件工具提取.存储.搜索.共享.分析 ...

  3. 华住数据库_华住内控人系列故事(四)技术领先篇——搭建大数据风险数据仓,实现自助取数...

    我们不断的学习和引入好的"利器",以新的技术提升内控内审工作效率,工欲善其事必先利其器. 01.从"依赖,等待"到"靠自己",搭建大数据风险 ...

  4. 解读2015之大数据篇:大数据的黄金时代

    2015年,整个IT技术领域发生了许多深刻而又复杂的变化,InfoQ策划了"解读2015"年终技术盘点系列文章,希望能够给读者清晰地梳理出技术领域在这一年的发展变化,回顾过去,继续 ...

  5. 一篇对大数据深度思考的文章,让你认识并读懂大数据

    在写这篇文章之前,我发现身边很多IT人对于这些热门的新技术.新趋势往往趋之若鹜却又很难说的透彻,如果你问他大数据和你有什么关系?估计很少能说出一二三来.究其原因,一是因为大家对新技术有着相同的原始渴求 ...

  6. (第9篇)大数据的的超级应用——数据挖掘-推荐系统

    摘要: 当我们搜集好了庞大的数据,那我们要怎么利用他们来指导推荐系统呢? 博主福利 给大家赠送一套hadoop视频课程 授课老师是百度 hadoop 核心架构师  内容包括hadoop入门.hadoo ...

  7. 华为内部一篇关于大数据的好文

    科技的进步在很多的时候总会超出我们的想象,如果未来我们一个人拥有的电脑设备超过现在全球现在计算能力的总和,一个人产生的数据量超过现在全球数据 量的总和,甚至你的宠物小狗产生的信息量都超过现在全球数据量 ...

  8. 云原生(一) | 介绍篇之大数据需要拥抱云原生吗?云原生为什么这么火?

    活动地址: 开发云 - 一站式云服务平台 文章目录 一.前言 二.从招聘需求来看大数据和云原生

  9. 大数据福利篇:大数据集成环境虚拟机的下载与使用(仅供个人学习使用)

    内容简介 一.集成环境虚拟机简介 二.集成环境虚拟机包含大数据框架清单 三.集成环境虚拟机下载 四.集成环境虚拟机安装与配置步骤 五.总结 一.集成环境虚拟机简介 前段时间有个小伙伴和我说在学习大数据 ...

最新文章

  1. 五分钟没有操作自动退出_这又是什么骚操作??5只蚂蚁战略配售基金拟增设B类份额,自动赎回退出!!...
  2. 【列表】python编程列表解析
  3. CompletableFuture:让你的代码免受阻塞之苦
  4. 怎么用MYSQL分析财务数据_如何使用Mysql正确的处理财务数据
  5. 自己动手写CPU(8)加载存储指令的实现
  6. vs 2019编写汇编并运行调试
  7. React个人入门总结《五》
  8. HDU4612+Tarjan缩点+BFS求树的直径
  9. 一文读懂babel编译流程,再也不怕面试官的刁难了
  10. 算法不会,尚能饭否之集合(Set)
  11. 如何为iPhone 5屏幕分辨率开发或迁移应用程序?
  12. 电大计算机考试将网页保存到桌面,电大计算机网考小抄.pdf
  13. matlab设计模拟带通滤波器
  14. 游戏设计的100个原理(1-5)
  15. Windows11桌面图标变成空白
  16. 江西省中小学生学籍管理-登录(1)
  17. 2019安徽省程序设计竞赛 D自驾游 题解
  18. gpio rk3399 控制_RK3326 RK3399 GPIO寄存器操作笔记
  19. keil uvision5 软件安装图文教程及视频演示
  20. 随便学学Python-day7-字典和集合

热门文章

  1. AXI_Lite 总线详解
  2. 红细胞膜载IR780纳米粒(IR780@RBC MNPs)|红细胞囊泡修饰聚乙烯亚胺载体
  3. 平台经济中国案例研究平台经济、系统性思考结合个人陈述的分析(Platform-Economics)
  4. NPM Error:gyp: No Xcode or CLT version detected!
  5. taobao.item_sku获取sku详细信息 API接口的调用
  6. Windows下cmd(命令提示符)中的复制粘贴操作
  7. 兰州主城区将实时监控 年内享受市民一卡通
  8. mysql实现postgres中pg_size_pretty函数
  9. 留几手:互联网创业到底是咋回事(说得真经典,创业者不创业的都值得一看)
  10. html position与z-index定位学习