原文链接:如何避免数仓模型“烟囱式”建设

如果把指标⽐喻成⼀棵树上的果实,那模型就是这棵⼤树的躯⼲,想让果实结得好,必须让树⼲变得粗壮。真实场景举例:

⼤多数公司的分析师会结合业务做⼀些数据分析(需要⽤到⼤量的数据),通过报表的⽅式服务于业务部⻔的运营。但是在数据中台构建之前,分析师经常发现⾃⼰没有可以复⽤的数据,不得不使⽤原始数据进⾏清洗、加⼯、计算指标。

由于他们⼤多是⾮技术专业出⾝,写的SQL质量⽐较差,甚⾄⻅过5层以上的嵌套。这种SQL对资源消耗⾮常⼤,会造成队列阻塞,影响其他数仓任务,会引起数据开发的不满。数据开发会要求收回分析师的原始数据读取权限,分析师⼜会抱怨数仓数据不完善,要啥没啥,⼀个需求经常要等⼀周甚⾄半个⽉。分析师与数据开发的⽭盾从此开始。

这个⽭盾的根源在于数据模型⽆法复⽤,数据开发是烟囱式的,每次遇到新的需求,都从原始数据重新计算,⾃然耗时。⽽要解决这个⽭盾,就要搞清楚我们的数据模型应该设计成什么样⼦。

引言部分与原博文一致。


数据的开发需要首先弄清自己的需求,即你要搞清楚,我将来拿到的数据是做什么用的?从自身经历出发,我认为可以分为以下两大部分。1.单纯存储;2.做分析。

1.从存储来说,其实建造什么样的模型,建多少模型都无所谓,因为从我的需求出发,我的目的是“存”,只需要保证了存储安全,备份容灾,版本控制等一系列考量,数据本身不丢失不损坏可追溯,存储的目的就达到了。相对于另一部分的需求。考虑的内容并不算多。

2.做分析的话,需要考量的内容激增。模型模型,这里指的都是数据模型,与我常些的挖掘模型算法模型数学模型这类称呼不是一类,注意区分,这里指的都是物理模型。物理模型即仓库内部的底层表,是先从业务模型中抽象出的概念,最后再落地的。要指出的是,现在有需求部署数据仓库,也确实有能力建设数据仓库的公司,已经很少有单生产、单系统的数据源的场景了。而出现了多数据源多生产系统的场景,就需要更多侧重于考虑到底层模型怎么建,或者说减少维护成本。要关注应用的业务范围,有多少部门,有多少业务条线要用数据去服务他们。

3.数据仓库的运维,往往需要的是时刻与业务契合,与监管要求契合。在资源和满足使用之间寻求一种微妙的平衡。正好够用就行了吗?当然不是,数据的建设从来与服务的业务场景息息相关,数据仓库是所有产品的数据中心,公司体系下的所有产品产生的所有数据最终都流向数据仓库,可以说数据仓库不产生数据,也不消费数据,只是数据的搬运工。数据仓库的数据,实时性要求不高,而准确性、清洁性必须较高,因此清洗的脚本繁多。如果每条数据都实时传送到数据仓库的话,那脚本执行的频率将非常高,所占用的系统资源也随之增加。

谈数据治理感想:基于《如何避免数仓模型“烟囱式”建设》博文相关推荐

  1. 内部矩阵维度必须一致simulink_浅谈数仓模型(维度建模)

    背景 数据仓库的核心是展现层和提供优质的服务.ETL 及其规范.分层等所做的一切都是为了一个更清晰易用的展现层. 数仓架构的原则: 1.底层业务的数据驱动为导向同时结合业务需求驱动 2.便于数据分析 ...

  2. 浅谈数据治理体系演进

    网易内部如严选.云音乐.传媒等数据团队对数据内容体系的治理思路都是将治理规范融入到开发过程中,将治理的动作提前,这其实就是"开发治理一体化":事后依赖数据资产健康评估和治理工具进行 ...

  3. 浅谈数据治理(什么是数据治理)

    浅谈数据治理 数据治理是一个对企业数字化转型至关重要的一个环节,关乎着企业核心数据是否能被规范化管理.数据的价值是否能被充分发挥等等.说白了能给企业实现降本增效.业务精细化运营.重要决策制定.产品优化 ...

  4. 《大数据讲堂》:世平信息首席科学家吕喆谈数据治理的落地措施

    7月31日,由杭州市数据资源资源管理局主办的2019年度"大数据讲堂"第六期,在市民中心会议室开讲. 本次邀请到的演讲嘉宾是杭州世平信息科技有限公司首席科学家吕喆,为大家作主题为& ...

  5. 数据产品_数据中台02_数仓模型和架构

    名词解释 一些必须掌握的专有名词 基础层-ODS(Operational Data Store-操作型数据存储) 未经过加工处理的原始数据:记录事实的唯一版本,业务系统产生的原始数据,原封不动的同步到 ...

  6. 美团 数据实时化是广告行业数仓建设的主流趋势

    内容摘要 数据实时化是数仓建设的趋势,相对于离线数仓,实时数仓能够给管理者.业务分析人员提供反应业务变化的实时数据,监控收入等关键指标的波动,及时根据市场热点变化调整运营策略,通过实时算法决策,提供更 ...

  7. 离线数仓模型构建的简单见解

    离线数仓模型构建的简单见解 1.业务数据与架构变化情况说明 2.数据分层说明 2.1 ods层模型说明 2.2 dim层模型说明 2.2.1 json 解析打宽成json基础表与分类拆解或合并 2.2 ...

  8. 数仓模型之维度表技术

    维度表概念 维, 是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维. 维度是维度建模的基础和灵魂. 维度属性是查询约束条件.分组和报表标签生成的基本来源,是数据易用性的关键. 维度 ...

  9. 基于MaxCompute的数仓数据质量管理

    声明 本文中介绍的非功能性规范均为建议性规范,产品功能无强制,仅供指导. 参考文献 <大数据之路--阿里巴巴大数据实践>--阿里巴巴数据技术及产品部 著. 背景及目的 数据对一个企业来说已 ...

最新文章

  1. java中什么是空指针异常_java中空指针异常的问题,是怎么回事?请看代码
  2. php 派生类 数据库连接 单例模式 xhprof实测 高效连接
  3. flutter中state详解
  4. 接口自动化测试系列(三):深入分析HTTP状态码400
  5. java uncked_使用FindBugs对SpringSide1.0m3进行分析的结果
  6. 解决 wamp网站访问慢的问题
  7. 作为现代计算机理论的基础的,作为现代计算机理论基础的冯·诺依曼原理和思想是()。...
  8. 老司机带你在MySQL领域“大吉大利,晚上吃鸡”
  9. zend studio和dreamweaver使用小笔记
  10. ctp怎么设置java的编码为GBK_GitHub - yuelong2456/java-ctp: java包装的上期ctp,用swig技术实现。...
  11. 解决 min-width 在 IE6 中无效的方法
  12. 浅谈SaaS应用开发的难度
  13. 前端笔试能查吗_微软前端社招笔试详解
  14. 9.数据操作 数据收集器
  15. Drozer的基本使用
  16. VMware Fusion for Apple silicon
  17. Pytorch练习--绘制Loss曲线
  18. ubuntu删除桌面快捷程序
  19. ROS : Navigation 基于碰撞传感器、悬崖传感器的实时避障 [kobuki]
  20. 我要写整个中文互联网界最牛逼的JVM系列教程 | 「JVM与Java体系架构」章节:JVM的发展历程

热门文章

  1. StringTokenizer理解与实践
  2. C++【坑人神器:绝地求生小游戏2.0】关机代码
  3. 继汇丰之后,中银加入吸储大战
  4. 澳洲跨专业读计算机,【澳洲名校案例】跨专业申请获得澳国立计算机专业offer...
  5. HDU-5222 Exploration(拓扑排序)
  6. 前端 HTML/CSS (十五)
  7. tar 压缩与解压缩
  8. 服务器Web性能测试主要包含四个方面详解
  9. Blynk + haodaMIDI,一个人就是一支乐队!
  10. 【游戏逆向】FPS游戏自瞄追踪及原理算法