???? 目录

  • 指标不统一的坏处

  • 指标混乱问题剖析

  • 规范指标的正确做法

  • 如何构建一个全局的指标字典

???? 指标不统一的坏处

这里其实大家会深有体会的,就是当你接触一个指标的时候,如果这个指标本身的口径得不到一个官方规范的解释,那么我们用起来就会很慌。为什么这么说?

首先,不同人对于一个指标口径的理解,会存在偏差的,比如对于“新用户”这个原子指标的定义口径,有的人是理解为当日新注册的用户为新用户,而有些人会理解为当日首次下单的用户为新用户,那么直接导致的结果就是同一个指标,计算出来的结果会天差地别,万一不好彩被大boss看到了这些差异那就GG了。

从学习郭忆老师的课程《数据中台实战课》中了解到了当前我们实际数据开发过程中,指标混乱的情况可以简单概况为以下几大类:


???? 指标混乱问题剖析

01 相同指标名称但口径不一样

这个很好理解就是上面一节描述的问题,不同人对于同一个中文名称的指标有着不一样的理解,会直接导致指标计算逻辑的差异从而导致结果的混乱。

02 相同口径但指标名称不同

这个也很好理解,也就是说我们对于同一个指标,有着不同的中文命名方式,比如说**“性别”这个指标,有的人叫 sex,有的人叫gender**,这个还好分辨,但使用起来就很不方便。如果换了个指标口径复杂一点的,就很难和别人进行解释了,比如“近1个月客户充值金额”和“近30天客户充值金额”,这个时候你就会confuse????了,究竟他们是一样的呢还是不一样呢?

03 不同限定词(修饰词),描述相同事实过程的两个指标,相同事实部分口径不一致

这句话理解起来还是有点绕的,不过我们可以举一个栗子????来看看:(我直接引用郭忆老师的例子)

  • 黑卡会员购买用户数

  • 非会员购买用户数

这两个指标从描述上看属于同一个事实过程,也就是购买用户数的事实,只不过是限定词不同,一个是“黑卡会员”,另一个是“非会员”,按理说很好统一了,但是事实又是什么呢?不同部分对于这两个指标的“购买用户数”这个事实过程的口径不一样,大家可以看看这两个指标的口径:

  • “黑卡会员购买用户数”的口径定义是计算周期内去重的(重复购买的用户只算一个),下单并且支付成功的用户数量;

  • “ 非会员的购买用户数”的口径定义是计算周期内去重的,下单并且支付成功,排除关单(“关单”是指在用户在下单购买成功后,取消订单)的用户数量。

简单理解,就是一个对于“购买用户数”的口径是包含关单的,一个是不包含的,那么这样子就会很奇怪了。。。

04 指标口径描述不清晰的

这个还蛮多开发同事会犯错的,就是有的时候开发任务重,然后这块的文档维护就不怎么上心,当下就是简单的对指标口径进行简单描述,以为自己理解了就行,但事实上描述的准确性就不怎么好理解了,会让人产生歧义,有歧义那就有问题了。

比如,如果我描述指标“寄件金额”的口径为:寄件运单金额。那么不同人理解就会存在偏差了,这到底包括了折扣金额呢?还是折扣后的运单金额呢?所以说呢,描述的越详细越好,最好是引用于源表的哪个字段都标注清楚,下次别人在看的时候就一目了然了。

05 指标口径描述错误

这个错误也很常见啊,比如说一个“7日uv”的指标,被描述为:7 日内日均 uv。那么按照口径描述我们理解的计算逻辑就是把最近7日内的uv求出来再除以7,但是这样子就是错了❌,了解pv、uv的同学也应该知道,因为正确的计算逻辑是需要对于uv进行去重,然后再求和取7日均值。

06 指标命名不规范导致难以理解

比如“发件城市”这个指标,口径描述为:最后一笔运单的发件城市。首先我直接看这个指标其实是很难理解的,究竟这个“发件城市”是什么意思?指的是发货城市,还是收货城市?其次,这个指标直接就叫“发件城市”其实是不准确的,应该加上“最后一次”这类相关的限定词才比较合适,不然会和原子指标“发件城市”进行混淆。

07 数据来源和计算逻辑不清洗

有些比较复杂一点的指标,直接用文字去描述其实是很困难的,这个时候其实我们可以尝试去写一下伪代码以及标明源表来源和对应字段,这样子后续追溯起来也是十分方便的。

✅ 规范指标的正确做法

在开始介绍之前,有一些名词术语需要先给大家科普一下:


我也是花了一阵子才理解上面这些抽象的名词,所以这里建议大家也需要花点时间去理解一下,或者结合一下栗子来帮助理解。


好了,那么我们如何规范地去管理我们的指标呢。

Step1:面向主题域管理

为了提高指标管理的效率,你需要按照业务线、主题域和业务过程三级目录方式管理指标。

Step2:划分原子指标和派生指标


Step3:进行指标命名规范

需要遵循两个原则:易懂与统一

  • 易懂,就是看到指标的名称,就可以基本判断这个指标归属于哪个业务过程;

  • 统一,就是要确保派生指标和它继承的原子指标命名是一致的。

对于原子指标,标名称适合用“动作 + 度量”的命名方式(比如注册用户数、购买用户数)

对于派生指标,应该严格遵循“时间周期 + 统计粒度 + 修饰词 + 原子指标”的命名方式。(比如30天内黑卡会员购买用户数)

Step4:分级管理

指标确实是多,如果一视同仁去管理其实很难,所以可以按照下面的原则进行等级划分:

  • 一级指标:数据中台直接产出,核心指标(提供给公司高层看的)、原子指标以及跨部门的派生指标。

  • 二级指标:基于中台提供的原子指标,业务部门创建的派生指标。

???? 如何构建一个全局的指标字典

其实最好的就是需要有一个指标系统来支持的,但如果条件有限,在有限的资源下其实也可以建立一个指标管理的小组来管理的。构建全局的指标字典其实需要分2步走的,只有把这两步都走通才算得上构建成功。

  • 一个是面对一个新的指标需求,如何基于指标系统完成指标开发流程;

  • 另外一个是面对已经存在的,混乱的指标现状,如何进行全局梳理。

场景1:面对新指标需求的情况下

其实就是要明确和规范开发流程,每一步都需要进行相关的评审,避免一些不规范开发以及复用历史资产,大致的流程可以参考下图:


场景2:面对杂乱的历史指标情况下

这一部分就很蛋疼了,需要耐心去梳理和总结了,大致操作步骤可分为:

1)成立以数据产品或者分析师为核心的 1~3 人的工作小组,专门负责指标的全局梳理;

2)制定指标梳理计划,明确指标梳理目标,覆盖多少个业务线,与业务方共同制定时间计划;

3)对于每一个业务线,需要对还在使用的数据报表、数据产品进行盘点,这里顺便可以把没用的报表和数据产品应该下线;

4)对于每一个报表和数据产品中涉及的指标,按照以下格式进行收集;

5)对于收集的指标,明确业务口径,对于口径相同的,应该去除重复,关联的应用应该合并,此时以我的经验,可以过滤掉相当一部分;

6)根据指标业务口径,明确指标所属的主题域、业务过程;

7)区分指标类型,对于派生指标,要明确指标的统计粒度、修饰词、时间周期以及关联的原子指标;

8)按照指标系统对指标的规范化定义,把整理好的指标录入指标系统。

—— 05 | 如何统一管理纷繁杂乱的数据指标 —— 极客时间 · 郭忆


???? Reference

  • 05 | 如何统一管理纷繁杂乱的数据指标 —— 极客时间 · 郭忆

  • 大数据之路:阿里巴巴大数据实践 —— 第9章

如何统一管理混乱的指标?相关推荐

  1. 华为LTC销售流程变革经验分享:流程管理的评估指标和评估方法--华为BPR专家许浩明老师分享

    华为LTC销售流程变革经验分享:流程管理的评估指标和评估方法–华为BPR专家许浩明老师分享 企业间的竞争就是管理的竞争!而流程.组织.IT是管理的核心要素,如何构建面向客户,以客户为中心的端到端.结构 ...

  2. 托管式服务网格:多种类型计算服务统一管理的基础设施

    王夕宁 读完需要 8 分钟 速读仅需 3 分钟 作者简介:王夕宁 阿里云高级技术专家,阿里云服务网格产品ASM及Istio on Kubernetes技术负责人,专注于Kubernetes.云原生.服 ...

  3. 网页整个技术文档怎么拷贝_企业文档管理混乱?试试文档管理系统

    现代信息技术不断进步,大数据技术和云计算技术都已经"强强联合",日趋膨胀的文档该怎么管理已变为企业必须要彻底解决的关键难题.接下来,我们就一起来看一下企业文件管理中普遍存在的一些难 ...

  4. 如何在 ETL 项目中统一管理上百个 SSIS 包的日志和包配置框架

    一直准备写这么一篇有关 SSIS 日志系统的文章,但是发现很难一次写的很完整.因为这篇文章的内容可扩展的性太强,每多扩展一部分就意味着需要更多代码,示例和理论支撑.因此,我选择我觉得比较通用的 LOG ...

  5. 如何统一管理谷歌GKE、AWS EKS和Oracle OKE

    在Rancher出现之前,管理在不同云提供商中运行的kubernetes集群从来都不是一件容易的事.Rancher是什么?它是一个开源的Kubernetes管理平台,用户可以在Rancher上创建对接 ...

  6. 处理订单业务多面手,订货管理系统实现企业订货库存统一管理

    订货管理系统是现代企业的重要组成部分,可以帮助企业解决订单管理混乱的问题.市场上有许多订单管理软件服务提供商,其主要目的是跟踪和管理客户订单的整个生命周期.选择一个能够提高企业订单管理效率的系统,关键 ...

  7. Android Studio配置统一管理依赖版本号引用

    版权声明:本文为HaiyuKing原创文章,转载请注明出处! 前言 本Demo采用的是其中一个方案,其他方案请阅读参考资料<Android Studio中统一管理版本号引用配置> 使用步骤 ...

  8. Android Studio中统一管理版本号引用配置

    转载注明gao_chun的Blog:http://blog.csdn.net/gao_chun/article/details/58105089 Gradle统一管理版本号引用配置 为了提高项目开发效 ...

  9. Gradle7.0,依赖统一管理的全新方式,了解一下~

    作者 | RicardoMJiang 来源 | https://juejin.cn/post/6997396071055900680 我估计用到这么高版本的同学非常少,大家可以简单了解下,做个收藏,未 ...

最新文章

  1. python中怎么安装pip-python中怎么安装pip
  2. 北交大计算机学院教授,北京交通大学计算机与信息技术学院研究生导师:鲁凌云...
  3. 在vs2005中安装boost库
  4. 工业交换机和工控交换机有什么区别?
  5. css正則匹配、模糊匹配
  6. [线性代数]Note4--A的LU分解转置-置换-向量空间
  7. ABP入门系列(12)——如何升级Abp并调试源码
  8. 95-190-032-源码-window-CountWindow
  9. 《黑白团团》第九次团队作业:Beta冲刺与验收准备
  10. C++实现离散数学之真值表(试着自写头文件)
  11. 模拟退火算法及MATLAB代码
  12. EditPlus中文版64bit百度网盘下载
  13. ORBSLAM:词袋(Bag of Words)
  14. 使用HttpClient4来构建Spring RestTemplate
  15. java计算机毕业设计济南旅游网站源码+mysql数据库+系统+lw文档+部署
  16. android 进入recovery,安卓手机如何进入Recovery模式的通用方式详解
  17. 叶俊:能量获取的秘籍-奇文
  18. unity animator动画融合时的上下半身速度分离控制
  19. 2020计算机考试内容,2020年全国计算机二级OFFICE考试内容
  20. 【Latex】Latex调整行间距

热门文章

  1. m7450扫描无法连接至计算机,关于联想M7450F打印机如何共享扫描功能的解决方案 By Deathbringer...
  2. Windows一键配网脚本
  3. 2019浙大计算机初试经验帖
  4. 计算机信息科学蔺泽浩,马波_北京理工大学计算机学院
  5. 微信 40003 问题解决思路汇总
  6. C++——QQ登录群发实现
  7. 原文翻译 - 设计MongoDB架构的6条经验法则 - 6 Rules of Thumb for MongoDB Schema Design: Part 1
  8. 合同管理系统对企业的重要性,不仅能降本增效,还能规避风险
  9. 风信子网络工作室——邀您加盟——保定
  10. 根据两个位置的经纬度,来计算两地的距离(单位为KM)