目录

数据质量保障原则

完整性

准确性

一致性

及时性

常见的数据监控原则

单表数据量监控

单表空值检测

单表重复值检测

单表值域检测

跨表数据量对比


在当今这个大数据时代,数据质量对于数据的价值有着至关重要的意义。它是数据有效影响业务并驱动业务发展的基础。对于企业级的数据治理项目,数据质量管理是其中重要的一环。

数据质量保障原则

如何评价数据质量的好坏,目前业界已基本达成共识。主要从以下四个方面进行评估:

完整性、准确性、一致性和及时性。

  • 完整性

完整性是指数据的记录和信息是否完整、不缺失。数据的缺失包括数据记录的缺失(表行数异常)和记录中某字段信息的缺失(字段出现空值)。需要重点关注数据的生产环节(原始数据的数据同步)和加工环节(数仓ETL)中表行数是否大于0、表行数波动是否正常以及字段是否出现空值或重复的情况。例如,电商交易中的每日交易数据量,(除了双11特殊情况)一般不会出现大幅波动;订单ID、商品ID、卖家ID、买家ID等都是必然不为空的。

  • 准确性

准确性是指数据记录中信息和数据是否准确、不存在明显的错误或异常。例如,在用户行为数据分析场景中,UV、PV这类指标数值小于0,则明显是错误数据。

  • 一致性

对于不同的业务流程和节点,来源相同的数据必须保持一致性。例如,在线教育业务中,课程表字段的subject字段中如果有英语、English两种表述,在您group by subject时会出现两条记录。

  • 及时性

及时性主要体现在数据应用层的指标数据可以及时产出。在保证了上面的完整性、准确性、一致性的基础上,保障数据及时产出,才更能发挥数据的价值。保证及时性,需要确保整个数据加工链路上的每个环节都可以准时成功产出。

常见的数据监控原则

单表数据量监控

一张表的记录数在一个已知的范围内,或者上下浮动不会超过某个阈值

单表空值检测

某个字段为空的记录数在一个范围内,或者占总量的百分比在某个阈值范围内

单表重复值检测

一个或多个字段是否满足某些规则

单表值域检测

一个或多个字段没有重复记录

跨表数据量对比

主要针对同步流程,监控两张表的数据量是否一致

数据治理——数据质量管理相关推荐

  1. 电信大数据治理与质量管理

    本文根据王志军先生在[DQMIS 2020第四届数据质量管理国际峰会]现场演讲内容整理而成. 图1.1 中国联通科技创新部副总经理 王志军 演讲嘉宾介绍 - 王志军       CCF大数据专家委员会 ...

  2. 数据资产运营 = 数据资产盘点 + 数据治理 + 数据价值实现

    略去大数据分析背景与价值部分,言简意赅的介绍如何进行数据资产管理运营. 数据资产管理运营 = 数据资产盘点 + 数据治理 + 数据价值实现 管理和运营是一个全流程的事情,首先我们需要知道有哪些数据(盘 ...

  3. 数据治理-数据质量-数据质量管理方法和工具

    常用质量管理工具 目前,在质量管理领域,有一系列常用的数据质量管理工具,主要分为传统的质量管理工具.新的质量管理工具和其他质量管理工具. 传统的质量管理七大工具 传统的七种工具包含分层法.检查表.帕累 ...

  4. 数据治理-数据质量-数据质量实施方法

    质量实施方法 数据质量领域研究学者和专家结合自身实践,先后提出了一系列质量管理得项目实施方法,其中以全面信息质量管理.全面数据质量管理.数据管理十步法.六西格玛等.         与传统数据质量管理 ...

  5. 数据治理-数据生命周期管理-大数据采集

    大数据采集 为满足企业或组织不同层次的管理与应用的需求,数据采集分为三个层次. 第一层次,业务电子化.为满足业务电子化的需求,实现业务流程的信息化记录,在本阶段中,主要实现对于手工单证的电子化存储,并 ...

  6. 数据治理|数据资产中心

    01 前言 我们来聊聊数据治理最最核心的部分--数据资产治理,本文主要阐述数据资产治理的策略和工具建设思路. 02 基本概念 广义的数据资产涵盖一切非结构化.半结构化和结构化数据,狭义的数据资产主要包 ...

  7. 大数据治理.数据储存技术

    1. HIVE & HBase hive是基于Hadoop的一个数据仓库工具,用来进行数据提取.转化.加载,这是一种可以存储.查询和分析存储在Hadoop中的大规模数据的机制.hive数据仓库 ...

  8. 数据治理-数据生命周期管理-大数据归档与销毁

    数据归档 在大数据时代,存储成本显著降低的情况,企业希望在技术方案的能力范围之内尽量存储更多的数据.但大数据时代同样带来了数据的急剧增长,因此数据归档仍然是数据管理必须考虑的问题.与传统的数据备份和数 ...

  9. 数据治理-数据质量-数据质量的概念和维度

    大数据质量的基本概念 数据是表示事物各种属性的基本元素,通常情况下,只要符合数据应用的需要,就可以将它视为合格数据,即数据质量合格.结合质量的定义分析可知,数据质量就是"一组固有特征满足表示 ...

最新文章

  1. 设计模式 — 行为型模式 — 模板方法模式
  2. eclipse制作uml_Eclipse生成一个UML
  3. 【Android APT】注解处理器 ( Element 注解节点相关操作 )
  4. 解决spring boot项目启动后访问接口出现日志乱码
  5. 几种常用的优化方法梯度下降法、牛顿法、)
  6. java 中的override overload 比较
  7. 数据中心传输需求成以太网市场巨大推动力
  8. 一种基于平衡二叉树(AVL树)插入、查找和删除的简易图书管理系统
  9. mysql面试常问 1: 谈谈MySQL表级锁和行级锁
  10. 【BZOJ1051】受欢迎的牛,tarjan缩点重构图
  11. Java HashMap工作原理及实现
  12. 搭积木php编程,Primo Toys,一款可以同时搭积木与编程的玩具
  13. python移动文件,将一个文件夹里面的文件移动到另一个文件夹
  14. 计算机巧用剪纸做画册教案,大班剪纸教案 老虎
  15. 中国传感器制造行业发展态势与应用前景预测报告2022-2028年
  16. CTC 技术介绍概述——啃论文系列
  17. 解决银河麒麟系统开机后桌面无图标,只有下方开始菜单和任务栏可操作问题
  18. 微信小程序和uniapp开发工具
  19. Windows10如何开启Mysql
  20. CF337A Maze 解题报告

热门文章

  1. js编辑器插件中实现sql格式化 sql-formatter
  2. kgsl ioctl
  3. noi.openjudge_P8787数的划分
  4. CMMB收费、直播星免费都是战略失误
  5. 0x80070035(0x80070035找不到网络路径 共享打印机)
  6. Spock单元测试踩坑
  7. windows-命令行读取CPU、内存、硬盘信息
  8. compose中的TextField
  9. linux 服务器查看实时日志
  10. 关于Bigtable个人理解