为什么是脏活、累活?

1. 源数据

  • 烟囱式开发:业务繁多、数据库多而乱,系统与系统之间错综复杂
  • 数据库种类:架构经历多次变迁,切换不完全,需要从Mysql、oracle、hbase甚至excle表中跨库、跨实例、跨种类才能获得有效业务数据
  • 数据结构混乱:同一字段,类型、命名都不一致
  • 文档缺失:无数据库文档或文档陈旧

2. 变迁

  • 系统版本升级:每一次升级都只是掩盖之前的错误,数据治理需要从源头
  • 人员变更:梳理过程中的大部分问题最终答案:“不清楚,原来维护人已离职”
  • 数据流转:数据从源头经过很多次不规范的同步

3. 存量

  • 各自为政:各业务部门已有自己的统计逻辑和报表,同一指标汇总维度又不一致,梳理、治理、输出还要尽量不影响已有报表结果
  • 半途而废:前任都知道数据治理、统一出口的重要性,但只完成一部分就放弃了。问题在于“完成的一部分”有人还在用

怎么开始?

1. 方法论

  • 统一定义:对个性化的数据指标统一规范定义
  • 标准建模:建立数据公共层对模型架构进行标准规范设计和管理
  • 规范研发:将建模方法体系贯穿在整个数据研发流程
  • 工具保障:通过研发一系列的工具保障方法体系的落地实施

2. 统一方法策略:统一归口、统一出口

图片来源:阿里巴巴 OneData

3. 统一业务归口

1.模型

规范化模型分层、数据流向和主题划分,从而降低研发成本,增强指标复用性,并提高业务的支撑能力。

2.规范

规范是数仓建设的保障。为了避免出现指标重复建设和数据字段难以理解的情况

(1) 词根

词根是维度和指标管理的基础,划分为普通词根与专有词根,提高词根的易用性和关联性。

  • 普通词根:描述事物的最小单元体
  • 专有词根:具备约定成俗或行业专属的描述体,如:-USD。

(2) 表命名规范

通用规范

  • 表名、字段名采用一个下划线分隔词根(示例:clienttype->client_type)。
  • 每部分使用小写英文单词,属于通用字段的必须满足通用字段信息的定义。
  • 表名、字段名需以字母为开头
  • 表名、字段名最长不超过64个英文字符。
  • 优先使用词根中已有关键字(数仓标准配置中的词根管理)
  • 在表名自定义部分禁止采用非标准的缩写

表命名规则

表名称 = 所处分层 + 业务主题 + 子主题 + 表含义 + 更新频率 + [分表:_0、_10]

(3) 指标命名规范

结合指标的特性以及词根管理规范,将指标进行结构化处理。

A. 基础指标词根,即所有指标必须包含以下基础词根:

基础指标词根 英文全称 Hive数据类型 MySQL数据类型 长度 精度 词根 样例
数量 count Bigint Bigint 10 0 cnt
金额类 amout Decimal Decimal 20 4 amt
比率/占比 ratio Decimal Decimal 10 4 ratio 0.9818

B.日期修饰词,用于修饰业务发生的时间区间。

日期类型 全称 词根 备注
daily d
weekly w
monthy m
季度 quarterly q Q1 ~ Q4

C.聚合修饰词,对结果进行聚集操作。

聚合类型 全称 词根 备注
平均 average avg
周累计 wtd wtd

E.基础指标,单一的业务修饰词 + 基础指标词根构建基础指标 ,例如:交易金额 - trade_amt

F.派生指标,多修饰词+基础指标词根构建派生指标。派生指标继承基础指标的特性,例如:新增门店数量-new_store_cnt

(4) 清洗规范

确认了字段命名和指标命名之后,根据指标与字段的部分特性,我们整理出了整个数仓可预知的24条清洗规范:

数据类型 数据类别 Hive类型 MySQL类型 长度 精度 词根 格式说明 备注
日期类型 字符日期类 string varchar 10 date YYYY-MM-DD 日期清洗为相应的格式
数据类型 数量类 bigint bigint 10 0 cnt 活跃门店

3. 统一数据出口

数仓建设保证数据质量以及数据的使用,对数据资产管理和统一数据出口之前:

  • 统一指标管理,保证了指标定义、计算口径、数据来源的一致性
  • 统一维度管理,保证了维度定义、维度值的一致性
  • 统一数据出口,实现了维度和指标元数据信息的唯一出口,维值和指标数据的唯一出口

4. 数据资产沉淀

图片来源:阿里巴巴 OneData
  • 词根、命名归档
  • 指标定义说明、指标树归档
  • 维度、维度树、数据类型
  • 计算逻辑统一,如:利润、成本等形成标准计算公式

5. 流程改善

建立运维监控体系

开发流程(仅包含数据模型及 ETL ),关键节点维度、指标及计算逻辑确定

开发流程

6. 标准化规范化数据流向

避免大量的烟囱式开发、重复生成明细表或轻度汇总表、分层引用等不规范性及数据链路混乱

标准化数据流向图
  • 标准的数据流向进行开发:即ODS–>DWD–>DWS–>APP 或 ODS–>DWD–>DWM–>APP
  • 新业务数据流:遵循ODS->DWD->APP或者ODS->DWD->DWS->APP两个模型数据流

寄语:一旦开始数据治理,不要半途而废

https://www.zhihu.com/answer/2551758354

原文

数据治理到底能不能干相关推荐

  1. 从方法到实践!深度解读:企业数据治理到底治什么?怎么治?

    伴随中国人口红利消失,企业用工成本逐年增长,急需降本增效.产品创新迭代的新方法,"数字化转型 + 数据治理"成为企业实现数据驱动增长的共同选择.同时,以"数据资产&quo ...

  2. 一个被认可的数据治理框架,到底应该什么样?

    今天说说数据治理. DGI框架是一个十分具有实践指导意义的数据治理模型,主要是它的设计是从组织数据治理的目标或者需求出发进行设计的,描述了谁可以采取什么行动来处理什么信息以及何时,在什么情况下使用什么 ...

  3. 如何进行有效的数据治理,提升数据价值?

    在数据应用过程中,数据采集和数据治理是两大核心抓手.本文继<方法论 + 实践,全面解析数据采集方案>之后,作者王灼洲通过两大挑战.三大原则详细阐述了对于企业数据治理的思考.主要内容如下: ...

  4. 神策数据王灼洲:如何进行有效的数据治理,提升数据价值?

    在数据应用过程中,数据采集和数据治理是两大核心抓手.本文继<方法论 + 实践,全面解析数据采集方案>之后,作者王灼洲通过两大挑战.三大原则详细阐述了对于企业数据治理的思考.(文末附 PPT ...

  5. 一文讲清数据治理、数据管理、数据资产管理区别,数据专家必看

    转载/谈数据 数据治理.数据管理.数据资产管理,有什么不同?这是一个我被问的最多的问题. 如果要用一张图来描述它们三者之间的关系,你跟赞成以下两幅图的哪个? 图1:数据治理包含数据管理,数据治理提出了 ...

  6. 套用这8种数据治理方法,解决90%的数据治理问题

    转载/大数据构架师 前些天,有客户问我,数据治理到底该怎么做?这个问题问的我是一时语塞.因为是在客户现场,我只能根据他的实际情况,针对性的提了一个方案.不过,这客户还真的是做了一些工作,然后就开始讨论 ...

  7. 万字好文 | 数字化转型之道——数据治理体系能力提升

    这篇是蔡春久先生直播的文字摘录,这场直播获得了满堂喝彩,讲的非常好,整篇文章大概10000字,建议大家看完. 来源:蔡春久-<帆软·决胜数字化转型>直播 文章整理:grace 蔡春久:中国 ...

  8. DAMA数据治理与数据质量--非结构化数据的数据质量管理

    本文根据汪广盛先生在[DQMIS 2020第四届数据质量管理国际峰会]现场演讲内容整理而成. 图1.1 DAMA(国际数据管理协会)中国区主席  汪广盛 演讲嘉宾介绍 -- 汪广盛 国际数据管理协会( ...

  9. 万字好文!数据治理体系与能力提升

    这篇是蔡春久先生直播的文字摘录,这场直播获得了满堂喝彩,讲的非常好,整篇文章大概10000字. 来源:蔡春久-<帆软·决胜数字化转型>直播 文章整理:grace 蔡春久:中国数据工匠俱乐部 ...

最新文章

  1. ECS 备份数据到NAS(一):使用Windows Server Backup工具
  2. Microbiome:中外合作揭示微生物群落降解复杂微生物聚合物的酶(视频导读)
  3. KMP算法 hdu 1711 hdu 2203
  4. python做数据分类_二分类怎么做数据分析python
  5. oracle sysnonym,Oracle权限
  6. C#开发WPF/Silverlight动画及游戏系列教程(Game Tutorial):(三十七)地图自适应区域加载...
  7. linux断网后自动重连,centos 空闲一段时间后自动断网
  8. Xamarin 打包生成 Android apk 文件
  9. 微信已支持数字人民币支付!
  10. (转)BCG出品史上最全Fintech-金融科技-发展趋势报告
  11. C语言常用库函数(含详细用法)
  12. 跨平台开发实践之Flutter
  13. android 毕业设计论文总结报告,android课程设计报告.doc
  14. 如何设置win7计算机不更新,win7系统不要自动更新的设置步骤(图文)
  15. 3D建模之ZBrush雕刻教程,神奇上尉角色建模教程,看完你“学废”了吗?
  16. 丑数 打表+二分查找
  17. 运用HTML5进行文字排版详解
  18. 各大型网站架构分析收集
  19. 2016最新php授权验证系统v2.1,2016PHP受权验证系统V2.1完整版,域名+IP双重验证 一键升级受权系统 完美无错...
  20. hdu 5234-三维背包

热门文章

  1. 手机改小视窗什么意思_简单几步教你如何将手机投屏到电视,1秒小屏变大屏!...
  2. 【Vim】中英文输入法切换
  3. Arduino实验二十三 倾斜开关实验
  4. 正确挤出3DMAX模型的方法,避免空心
  5. 自尊宣言—个人力量的源泉
  6. 美的智家、海尔智家,吹响新一轮AI竞赛号角
  7. CHNet-S7200PDPB西门子S7200PLCppi转以太网处理器
  8. 开源工作流自动化神器 n8n
  9. 年轻手机市场的破局者?HUAWEI nova 2系列的野心
  10. 源码探秘之 vue-property-decorator