在数据分析相关内容中,包括两大重要内容:一是底层数据系统建设内容,二是业务报表相关内容梳理。一是系统基础,二是基础之上的业务逻辑衍生。
在番茄风控之前的数据分析课程中,主要集中在以上的第二点即业务相关报表内容进行展开:


有童鞋跟我们交流,是否能稍微对第一种即底层基础的架构内容如数仓相关基础知识进行讲解?
今天跟大家介绍跟底层数据仓库建设方面的内容。类似数仓模型建设中,内容有关于明细模型、汇总模型、以及应用模型,然后在此基础上生成报表,辅助分析,引导规则或策略的制定等相关内容。

要了解关于底层数据仓库的内容中,就不得不提关于它的两大基础的底层数据模型,以下详细展开讲解。
在数据仓库的建设中,有两大基础模型分别是:星型模型和雪花模型,我们会围绕着两个模型来设计表关系或者结构。
1.图示—星型模型:

星型模型由一个事实表和一组维表组成,是一种多维的数据关系。里面的每个维表都有一个维作为主键,所有这些维的主键组合成事实表的主键。强调的是对维度进行预处理,将多个维度集合到一个事实表,形成一个宽表。所以在使用hive时,经常会看到一些大宽表的原因。
大宽表属于事实表,包含了维度关联的主键和度量信息,而维度表则是事实表里面维度的具体信息,使用时候一般通过join来组合数据,相对来说对OLAP的分析比较方便。

2.图示—雪花模型:

当在星型模型中,有一个或多个维表没有直接连接到事实表上时,而是通过其他维表连接到事实表上时,其图解就像多个雪花连接在一起,故称雪花模型。
雪花模型是对星型模型的扩展。也是对星型模型的维表进一步层次化,原有的各维表可能被扩展为小的事实表,形成一些局部的 "层次 " 区域,这些被分解的表都连接到主维度表而不是事实表。雪花模型更加符合数据库范式,减少数据冗余,但是在分析数据的时候,操作比较复杂,需要join的表比较多所以其性能并不一定比星型模型高。

3.两大模型的优劣对比:

4.相关的场景应用
星型模型的设计方式主要带来的好处是能够提升查询效率。因为生成的事实表已经经过预处理,主要的数据都在事实表里面,所以只要扫描实时表就能够进行大量的查询,而不必进行大量的join,其次维表数据一般比较少,在join可直接放入内存进行join以提升效率,除此之外,星型模型的事实表可读性比较好,不用关联多个表就能获取大部分核心信息,设计维护相对比较简答。雪花模型的设计方式是比较符合数据库范式的理念,设计方式比较正规,数据冗余少,但在查询的时候可能需要join多张表从而导致查询效率下降,此外规范化操作在后期维护比较复杂。

5.小结
通过以上简单的比较,我们可以发现数据仓库大多数时候是比较适合使用星型模型构建底层数据Hive表,通过大量的冗余来提升查询效率,星型模型对OLAP的分析引擎支持比较友好。
目前而言,雪花模型在关系型数据库中如MySQL,Oracle中非常常见。在数据仓库中雪花模型的应用场景比较少,所以在具体设计的时候,可以考虑是不是能结合两者的优点参与设计,以此达到设计的最优化目的。除了本次的数仓的内容外,在即将安排上线的数据分析训练营的课程中,还迭代更新了spark相关的内容,详情如下:
1、spark简介
1.1、spark是什么
1.2、spark特性
1.3、spark安装
1.4、spark webui使用
1.5、spark-shell
1.6、idea开发spark

2、spark-core rdd核心概念
2.1、常用rdd算子操作
2.2、广播变量
2.3、依赖关系、血统、缓存、机制
2.4、调优总结

3、spark-sql
3.1、spark-sql特性
3.2、dataframe操作
3.3、dataset操作
3.4、自定义函数
3.5、spark-sql调优

4、spark-mlib
4.1、决策树
4.2、随机森林

5、spark案例:银行营销理财购买预测
5.1、数据集介绍
5.2、获取数据集
5.3、数据预处理和特征工程
5.4、选取特征数组
5.5、数据集划分
5.6、模型训练验证

详情可关注:《数据分析训练营》(另外还同步更新了二代征信实操模块内容):


~原创文章

end

数据仓库中的两大经典模型相关推荐

  1. 在TensorFlow中对比两大生成模型:VAE与GAN(附测试代码)

    来源:机器之心 本文长度为3071字,建议阅读6分钟 本文在 MNIST 上对VAE和GAN这两类生成模型的性能进行了对比测试. 项目链接:https://github.com/kvmanohar22 ...

  2. 过拟合和欠拟合_现代深度学习解决方案中的两大挑战:拟合和欠拟合

    全文共2306字,预计学习时长5分钟 对机器学习模型而言,最糟糕的两种情况无非是构建无用的知识体系,或是从训练数据集中一无所获.在机器学习理论中,这两种现象分别被称为过拟合和欠拟合,是现代深度学习解决 ...

  3. 理解数据仓库中星型模型和雪花模型

    在数据仓库的建设中,一般都会围绕着星型模型和雪花模型来设计表关系或者结构.下面我们先来理解这两种模型的概念. (一)星型模型图示如下: 星型模是一种多维的数据关系,它由一个事实表和一组维表组成.每个维 ...

  4. 机器学习与数据挖掘中的十大经典算法

    转载https://www.cnblogs.com/liulunyang/p/3868808.html 参考可见 https://blog.csdn.net/fuqiuai/article/detai ...

  5. Score-based Generative Model:一统DDPM和SMLD两大生成式模型

     Diffusion Models专栏文章汇总:入门与实战 前言:2019年宋博士提出了SMLD模型,2020年Jonathan Ho提出了DDPM,这两大生成式随即成为顶会宠儿.2021年,宋博士提 ...

  6. 全面解析小程序拼团营销玩法,两大经典拼团活动案例分享

    小程序拼团作为当下主流的社交营销玩法,在各行业应用中也是非常广泛的.策划一场成功的拼团活动,可以实现快速裂变传播,带来更多新客和订单. 接下来,我们就介绍一下如何策划一场成功的拼团活动,并分享两个经典 ...

  7. matlab中gad,10大经典算法matlab代码以及代码详解【数学建模、信号处理】

    [实例简介] 10大算法程序以及详细解释,包括模拟退火,禁忌搜索,遗传算法,神经网络.搜索算法. 图论. 遗传退火法.组合算法.免疫算法. 蒙特卡洛.灰色预测.动态规划等常用经典算法.是数学建模.信号 ...

  8. 建立WEB两大经典!《VML极道教程》+FlashVml(闪耀之星)3.0中/英文版联合发布!

    该贴的内容,请务必字句阅读,因为这是免费赠送给所有WEBIT人的一个技术大蛋糕! 注释:以下所有的URL演示地址,因人流问题会较慢,其加载时请耐心等待,并尝试使用不同地址分流. <VML极道教程 ...

  9. Linux中的两个经典宏定义:获取结构体成员地址,根据成员地址获得结构体地址;Linux中双向链表的经典实现。...

    倘若你查看过Linux Kernel的源码,那么你对 offsetof 和 container_of 这两个宏应该不陌生.这两个宏最初是极客写出的,后来在Linux内核中被推广使用. 1. offse ...

最新文章

  1. 处理器拦截器(HandlerInterceptor)详解
  2. 笑一个阿 哈哈哈。。。。
  3. pyQt4 for mac OS 10.8
  4. html:(29):伪选择符和分组选择符
  5. 如何选择行业,让选择大于努力
  6. 微信小程序审核不通过的解决方法
  7. [EMNLP2017]Global Normalization of Convolutional Neural Networks for Joint Entity and Relation(阅读笔记)
  8. 华硕飞行堡垒atk驱动在哪_双11福利大放送 11月8日华硕再开血拼狂欢模式
  9. 14.嵌入式控制器EC实战 SMBus读取电池信息并控制充放电
  10. Python-分割PDF文件-如何自定义分割-按页数分割PDF-PyPDF2
  11. Gstore官网学习一:知识图谱与gStore介绍
  12. turtle画樱花树林
  13. 嵌入式:ARM间接寻址、变址寻址与多寄存器寻址
  14. python自动控制原理_自动控制原理(山东联盟-中国石油大学(华东))知到答案2020年MOOCPython语言程...
  15. 文件上传漏洞初步解析(个人浅薄理解)
  16. 教你如何查看附近的WiFi密码
  17. Linux(12)Debain系统安装远程控制软件
  18. 真的是厚黑吗·《厚黑学全书》
  19. SKG、倍轻松“亮红灯”,网红按摩仪难逃“过气命”?
  20. ubuntu安装百度网盘linux版客户端

热门文章

  1. eve星战前夜登录提示服务器维护中,EVE星战前夜进不去怎么办 游戏进不去问题解决方法...
  2. androidsdcard挂载目录_获取android手机的自带存储路径和sdcard存储路径
  3. 会议容易中吗_拉伸、缩放、比例,这些CAD中容易混淆的概念你搞清楚了吗?
  4. ctfshow-WEB-web9( MD5加密漏洞绕过)
  5. 安装系统显示sql服务器未安装,mssqlserver服务未安装怎么办 mssqlserver怎么安装
  6. React项目build之后资源文件路径不正确或打开空白页的问题及简易解决方法
  7. 在asp中使用js的encodeURIComponent方法
  8. React 16 Jest ES6 Class Mocks(使用ES6语法类的模拟) 实例三、四
  9. 【云周刊】第120期:麒麟来了!PUE逼近1.0,阿里展示液冷黑科技
  10. mybatis映射多对多查询实现