在如今火爆的数智化时代,企业都在利用大数据创新业务、获得价值;然而,数据能否更好地赋能业务,取决于企业数据质量的好坏。好的数据质量,经过数据分析、挖掘、机器学习等手段,可以更好地辅助业务决策、帮助企业降本增效;差的数据质量,从数据中获得的价值有限,甚至会误导做出错误的业务决策,从而给企业带来灾难性的后果。

那么,一个企业的数据质量如何,如何评估?常见的数据质量问题都有哪些?这些问题是什么原因造成的?

数据质量评估维度

在评价企业数据质量的好坏时,首先需要定义评估的维度,通常较为重要的数据质量维度有以下6个:

  • 数据唯一性: 是指数据唯一,不存在重复记录。即:不会出现一物多码,一码多物的情况。例如:主键唯一性,同一个ID不会重复记录。
  • 数据完整性: 是指数据在创建、处理流转过程中无缺失和遗漏,包括实体完整、属性完整、记录完整和字段值完整。例如:员工的工号不可为空。
  • 数据准确性: 是指真实、准确地记录原始数据,无虚假数据及信息。数据要准确反映其所建模的"真实世界"的实体。例如:在业务系统上填写信息时,手误输错了新车类型信息,造成了数据库里存在的信息与真实世界不一样。
  • 数据一致性: 是指数据是否遵循了统一的规范、是否符合逻辑。例如:同一车型所对应的名称在不同系统中保持一致。
  • 数据及时性: 是指及时记录和传递相关数据,从而满足业务对信息获取的时间要求。主要指数据提取要及时、传送要及时、转换要及时、加载和展现要及时。
  • 数据有效性: 指数据的值、格式和展现形式符合数据定义和数据业务定义的要求。例如:手机号要符合全球手机号码编码规则。

数据质量问题分析原因

从数据的整个生命周期来看,任何一环节都有可能产生数据问题。在数据的采集阶段,数据的真实性、准确性、完整性、一致性等会影响数据质量。在数据的加工、存储阶段,也涉及到对数据的修改,也可能引发数据质量问题。所以,业务、技术、管理等多方面的因素都有可能会影响到数据质量。

业务问题

  • 业务需求不清晰

    在业务需求不清晰的情况下,很容易造成由于理解偏差,最终导致结果数据有问题。

  • 需求频繁变更

需求一旦变更,其中数据采集、数据处理、数据存储等环节就可能会受到影响,稍有不慎引入Bug,便造成数据质量问题。

  • 数据填报缺失或不准确

业务系统侧,在数据录入时,漏填或填错信息,造成数据的质量问题。

  • 数据作假

为了提高或降低考核指标,对一些数据进行人为造假,使得数据真实性无法保证。

技术问题

  • 数据库结构设计问题

例如:数据库表结构、数据库约束条件、数据校验规则的设计开发不合理,造成数据录入无法校验或校验不当,引起数据重复、不完整、不准确。

  • 数据采集问题

从业务系统采集过来的数据本身就有一些不完整、重复、不规范,如果没有清洗、及时纠错或清洗代码有Bug,就会造成有质量问题的数据进入。

  • 数据处理问题

数据在传递、数据转换、数据存储过程中,任一环节有技术问题,都有可能造成数据质量问题。

  • 各系统孤立开发

业务系统各自为政,孤立开发,系统之间的数据孤岛、数据不一致问题严重。

管理问题

企业管理缺乏数据思维, 没有认识到数据质量的重要性。没有进行统一数据管理,没有明确的数据质量目标,也没有制定数据质量相关的政策和制度等。

数据质量问题改进指导

正如上述所列,造成数据质量差的原因有很多;那么,面对企业数据质量差的问题,如何改进?借鉴PDCA循环(又名戴明环)进行数据质量持续改进,以达最终数据质量目标。

PDCA循环

PDCA是一套“目标管理”流程,通过规划、执行、检查、行动四阶段,确保每次的目标都能达成。PDCA循环在质量管理中得到广泛的应用。

PDCA的四个阶段:

  • 计划 PLAN

先确定数据质量目标,可通过数据质量评估标准为当前企业数据质量进行评估,设定改进目标。 对照目标制定计划与实施方案。在制定实施方案时,每1项措施要符合5W1H,即:为什么制定该措施?达到什么目标?在何处执行?由谁负责完成?什么时间完成?怎么完成? 比如:一项措施是为企业制定并执行数据标准。

  • 实施 DO

依据上一步计划与实施方案进行执行。 比如:制定好数据标准,推广到各部门执行。eg. 某车企会员类型(企业代码标准、2位编码):01 普通卡、02 黄金卡、03 钻石、04 超级VIP卡;车保险种类代码(外部代码标准、4位编码):10100 交强险、10200 商业车险 等等。

  • 检查 CHECK

完成一轮的实施之后,进行检查,对比当前实际情况与预期目标的差距。

  • 行动 ACT
    对于本轮的经验和措施形成标准,标准化下来,持续运行,防止质量倒退。 对于没有达到预期效果,分析原因,制定下一步行动,继续下一轮的PDCA循环。

所有措施不可能在一个PDCA循环中全部解决,遗留的措施会自动转进下一个PDCA循环,周而复始,螺旋上升。

改进措施

有了PDCA循环的指引,透过PDCA环高效完成达到目标的所有措施,持续改进数据质量。在制定有效措施方面,始终要遵循:及时发现问题 -> 立即解决问题-> 提前预防问题;因此,归纳改进措施如下。

事前预防
  • 提高全员数据质量意识。加强培训、Session分享、或出题考试等,通过各种手段培养员工重视数据质量,了解数据对下游所产生的影响。
  • 制定数据规范、数据质量标准、元数据管理等。
  • 建立自动系统,数据输入控制,防止无效或不准确数据进入系统。
  • 制定正式的变更控制、把关过程,防止正常处理流程之外直接更改数据。
  • 制定相关制度来避免数据问题,如:严禁无记录无跟踪人为篡改数据。
事中监控

问题发生,及时纠正,最大限度地降低纠正措施成本和风险。

  • 构建日志管理体系,问题及时追踪处理。
  • 构建数据异常处理机制与告警办法
  • 创建数据质量监测平台,自动执行数据质量检查和审计过程。
  • 问题发生,及时数据修正:程序自动修正、程序自动发现且人工修正。
  • 建立数据质量的流程化控制体系,对数据的采集、加工、存储等环节进行流程化控制。
事后完善
  • 问题发生解决后,要复盘,完善相应的预防措施、数据规范、数据管理制定与政策等等
  • 定期评估度量,落实行动项,逐步提升数据质量。

写到这里,想必大家对于数据质量问题的分析与改进有了一定的认识。总之,记住下面这句话:

【首先】数据质量评估 -> 发现问题,

【其次】问题根因分析 -> 分析问题,

【最后】戴明环方法改进 -> 解决问题。


文/Thoughtworks李春辉
原文链接:数据质量问题的分析和改进-Thoughtworks洞见

如何评估企业的数据质量相关推荐

  1. 国际权威数据质量原文修订:数据质量评估的六个主要维度

    数据质量评估的六个主要维度 原文下载: https://download.csdn.net/download/bigdatapang/12125767 DAMA版权所有, 翻译修订by大数据庞涛138 ...

  2. 数据分析 - 基础原理 之 第三章:数据质量管理 - 第一节:数据质量评估

    请参考原创:https://mp.weixin.qq.com/s/ovSa7Uhv5IyKzyb-l3PHaA 前言 数据资产的重要性 数据资产是企业或组织拥有或控制,能带来未来经济利益的数据资源.越 ...

  3. 亿信华辰:怎样去断定一份数据的质量高低?数据质量如何评估?

    今天给大家分享一下如何进行数据治理.数据治理包括很多方面,咱今天聊聊数据质量应该如何评估." 数据质量的治理,是数据治理的主要内容之一.数据质量的全面评价,是数据质量治理的准绳." ...

  4. 数据平台-第一章-数据质量提升

    2019独角兽企业重金招聘Python工程师标准>>> 概述 元数据为数据数据平台提供了一致的描述信息,描述系统的结构特征和静态特征,并作为控制性信息,控制并配置特定工具和进程运行, ...

  5. 十步法原则解决数据质量问题

    一.相关概念 1.1 数据质量 数据的一组固有属性满足数据消费者要求的程度. 1)数据固有属性 真实性:即数据是客观世界的真实反映 及时性:即数据是随着变化及时更新的 相关性:即数据是数据消费者关注和 ...

  6. 数据质量在数据资产评估中有着怎样的作用?

    文章摘自6月11日,华矩科技数据治理系列讲座活动第四期谭海华先生带来的分享. 今天我想跟各位交流一下这个话题,来讲一讲我的理解.主要分为以下几个部分: 首先,谈谈数据资产的理解,我想这个问题还是有不同 ...

  7. 基于 Amazon 云端数据质量治理解决方案

    点击上方[凌云驭势 重塑未来] 一起共赴年度科技盛宴! 数据质量治理是数据治理中的一个重要环节,它对于一个面向数字化转型的企业来说尤为重要,而目前市场上缺乏完全基于 Amazon 的.全面覆盖业务和技 ...

  8. 数据质量(DQ)的建设方法论!离线实时通用

    目录 基础概念 数据质量问题根源 数据质量四个保障原则 数据质量六大基本要素 数据质量管理的方法 数据分析的方面 数据质量检核和监控 数据质量的监控指标一般有哪些 数据质量问题分析及报告 基础概念 什 ...

  9. 独家 | 识别并解决数据质量问题的数据科学家指南

    作者:Arunn Thevapalan 翻译:陈超校对:王紫岳本文约3000字,建议阅读9分钟 本文介绍了Python中的Ydata-quality库如何应用于数据质量诊断,并给出数据实例进行详细的一 ...

最新文章

  1. FTP的20、21端口,工作模式
  2. CentOS7.X更新gcc到5.3.0
  3. editplus 配置 golang 开发调试环境
  4. java 中文乱码问题,请注意response.getWriter的顺序
  5. 【PC工具】更新图片批量处理工具Image Tuner,绿色免安装工具软件
  6. Hadoop YARN安装部署初探
  7. 香港四大天王影帝情况(截止2016)
  8. LIBCLNTSH.SO: WRONG ELF CLASS: ELFCLASS32错误一例
  9. step1 . day5 C语言基础练习之日历(使用函数调用,优化至元年开始时间)
  10. os.walk() 遍历目录下的文件夹和文件
  11. Collection源码阅读
  12. 搭建本地 HTTPS 环境
  13. js正则表达式截取字符串中的数字(不包括正负号)
  14. BZOJ2655 calc(动态规划+拉格朗日插值法)
  15. 系统学习机器学习之神经网络(一)--MLP及局部模型,RBF综述
  16. composer 安装yii2框架
  17. UE4针对特殊的透明物体不应用后期效果
  18. destoon平台供应或者商城详情页直接链接到会员的商铺上
  19. 颜色格式转换: 最简单的基于FFmpeg的libswscale的示例(YUV转RGB)
  20. word文档加密保护不能编辑问题

热门文章

  1. 【爬虫】selenium+webdrive抓取淘宝商品评价
  2. 杭州银行与阿里云达成战略合作 将阿里云定义为首选云服务商
  3. Reqtify需求追踪中遇到SCADE ALM GateWay问题
  4. 2023全新盲盒商城系统源码/前后端全开源+CRMEB商城改的盲盒
  5. resize2fs命令详解
  6. 考研408 笔记 计算机网络【谢希仁第七版】第二章【物理层】几种复用方式 信道复用技术,频分复用FDM,时分复用TDM,波分复用WDM,码分复用CDM
  7. 二部图(染色法判断二部图)
  8. Activiti6 查询由某人发起的流程请求
  9. 转帖:世间最珍贵的是什么?
  10. 【程序人生】干了三年程序员,我决定兼职送外卖