数据质量监控背景

当我们把数据导入数据仓库时,ETL中的每个步骤中都可能会遇到数据质量错误。比如与源系统的连接错误,抽取数据可能会失败。由于记录类型冲突,数据转换可能会失败。即使的ETL任务成功,提取的记录中也会出现异常值,导致后续过程报错。

那么如何主动捕获这些错误,并确保数据仓库中的数据质量?

接下来,我们来总结5条规则,在做ETL的过程中,使用这些规则来确保数据仓库中的数据质量。

数据质量监控方法

1、校验每天的记录数

分析师遇到的最常见数据异常是其报告的输出突然降至0。

我们通常会发现最后的罪魁祸首是当天没有将新记录添加到相应的表中。

一种简单的检查方法是确保每天一个表中的新记录数>0。

2、NULL和0值校验

分析师常遇到的第二个问题是NULL或0值。我们要保证每天增量数据中的NULL或0值不能超过新增数据的99%。要检查这一点,只需将一个循环脚本设置为每天用NULL或0计数一个表中的新记录数。如果看到记录数急剧增加,则可能存在转换错误或源业务系统就存在异常。

3、每天新增的记录数波动范围

某一天你发现数据量出现大幅增长或下降,而规则1和2都已校验通过。这种波动可能是正常的,比如电商行业某天的大促活动,或者社交软件的营销活动。但是也可能这就是异常的,是因为从源系统抽取了重复的记录。所以针对此种情况,我们也要制定数据质量规则,检查这些波动何时发生,并主动进行诊断。比如自动执行的一个简单的SQL过程,每天检查COUNT个新记录是否在7天跟踪平均值的误差范围内。阈值和误差范围可能因公司和产品而异,经验值一般是加减25%。当然,你可也可以直接和前一天的数据对比,增量不超过前一天的1倍。

4、重复记录数据校验

不管是电商系统或者是社交系统或者是物联网设备上报的数据,正常情况下都不会出现两条完全一样的记录(包括ID,时间,值都一样)。笔者曾遇到一个终端上报的两条数据完全一样的场景,导致我在做时间分段时候,划分不正确。所以,对数据值唯一性校验是有必要的。

5、数据时间校验

一般我们业务系统的数据都是带有时间戳的,这个时间戳肯定比当前的时间要小。但是由于采集数据设备异常(业务系统异常),我们会碰到“未来时间”的数据,那如果我们以时间作为分区,后期可能就会出现异常的分析结果。当然,如果你的公司业务是跨国的,你需要考虑时差因素。

总结

这些只是我们维护数据仓库时遇到的最常见的5个错误。可以将上述规则作一个checklist,做成任务每天例行检查。出现以上问题是对ETL任务进行告警,并人工干预。每周或者没有汇总质量报告,和团队小伙伴或者业务侧一起制定解决方案,不断完善监控体系,只有这样才能保证我们的业务分析结果是准确的,才能指导公司做出正确的决策。

当然,对于企业级数据质量监控系统,这些事远远不够的,不同公司面临的困难不一样,方法也不一样,可以参考业务的一些建议,制定自己的一套数据质量监控方案,这样才能更好的落地实施。

谈谈ETL中的数据质量相关推荐

  1. 如何在SQL Server中使用数据质量服务清除主数据服务数据

    介绍 (Introduction) A few weeks back, I was approached by a client who lives in Cape Town, South Afric ...

  2. 如何在HHDI中进行数据质量探查并获取数据剖析报告

    通过执行多种数据剖析规则,对目标表(或一段SQL语句)进行数据质量探查,从而得到其数据质量情况.目前支持以下几种数据剖析类型,分别是:数字值分析.值匹配检查.字符值分析.日期值分析.布尔值分析.重复值 ...

  3. 网易猛犸:数据质量漫谈

    互联网是一个建立在数据之上的服务行业,数据质量的好坏直接影响到企业的生存能力和竞争力.如果数据质量不佳,便容易给企业带来以下危害: 干扰运营分析,影响决策: 影响算法模型质量,导致服务不够智能化: 耗 ...

  4. 数据质量控制理论与实践经验

    数据质量管理是对数据从计划.收集.记录.存储.回收.分析和展示生命周期的每个阶段里可能引发的数据质量问题,进行识别.度量.监控.预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一 ...

  5. 数据质量提升_合作提高数据质量

    数据质量提升 Author Vlad Rișcuția is joined for this article by co-authors Wayne Yim and Ayyappan Balasubr ...

  6. 【2017年第3期】面向共享的政府大数据质量标准化问题研究

    洪学海1,王志强2,杨青海2 1.中国科学院计算技术研究所,北京 100190 2. 中国标准化研究院,北京 100191 摘要:回顾了国内外数据质量研究与实践的进展,重点对ISO 8000数据质量国 ...

  7. ai人工智能的数据服务_AI如何帮助提高企业数据质量

    ai人工智能的数据服务 Hardly anyone relying on data can say their data is perfect. There is always that differ ...

  8. 数据管理体系之数据质量

    数据质量的概念(是什么) 概念 数据质量管理不是一时的数据治理手段,而是循环的管理过程. 数据质量管理不仅包含了对数据质量的改善,同时还包含了对组织的改善. 数据质量管理不单纯是一个概念,也不单纯是一 ...

  9. 大数据之路读书笔记-15数据质量

    大数据之路读书笔记-15数据质量 随着 IT向DT 时代的转变,数据的重要性不言而喻,数据的应用也日趋繁茂,数据正扮演着一个极其重要的角色.而对于被日益重视的数据,如何保障其质量也是间里巴巴乃至业界都 ...

  10. 金融业数据质量评价体系

    一.应用背景与目标 首先是外部监管对数据质量要求日益严格,其次内部有效的数据分析与经验决策需要高质量的数据,最终无论对外部还是内部均需要优质的数据质量,才能满足内外部用数的需求,因此要做到" ...

最新文章

  1. 深度丨霍金的去世让我想起了微软提出的人工智能十大原则
  2. 002_centos7上安装mysql8
  3. jpg图片转eps 用于LaTeX
  4. Android数据库高手秘籍(二):创建表和LitePal的基本用法
  5. Oracle用户相关命令
  6. sae mysql_connect_SAE连接数据库 - zxm的个人空间 - OSCHINA - 中文开源技术交流社区
  7. html怎样获取用户手机号码,小程序如何获取用户手机号?
  8. 容器大小_C++复习篇(7)序列式容器vector
  9. 域名卡密自助授权系统
  10. 医疗管理核心制度之 十八、信息安全管理制度
  11. 中文字体下载大全+传世书法墨迹珍藏..等20款
  12. jenkins+docker进行coverity检查自动构建
  13. python:批量修改文件夹名称
  14. 阿里巴巴淘宝网电子商务模式调查分析
  15. QuickCHM 2.6中“不支持此接口”错误的解决
  16. 计算机开模拟器,低配电脑如何强制开50个安卓模拟器挂机
  17. Win10正式版Guest来宾账户开启使用方法
  18. 金陵科技学院计算机分数,2018金陵科技学院录取分数线
  19. matlab留学生作业代做,代做DFT留学生作业、代写Matlab实验作业、Matlab程序语言作业调试、FFT课程作业代做代做数据库SQL|调试Matlab程序...
  20. 甄选北京十大律师事务所排名榜(资深团队、胜诉率高)

热门文章

  1. 电脑怎么设置时间自动关机?
  2. 知云文献翻译打不开_【小虎聊干货】八大翻译软件大揭秘,告诉你科研翻译的正确打开方式...
  3. 微信小程序踩坑——项目内文件夹删除不掉
  4. 【vn.py】SpreadTrading价差交易
  5. MPEG-4、MPEG-4/AVC、H.264之间的联系与区别
  6. 【车间调度】改进的帝国企鹅算法求解车间调度问题【含Matlab源码 2041期】
  7. tan x x的matlab求解,matlab画x=tan(x)
  8. Smartbi的使用
  9. win定时关机_windows如何设置定时关机?
  10. maya模型导入UE4,如何做到等比导入