数据质量管理有哪些方法
数据质量管理是数据治理中的重要步骤。这是准备数据以符合质量标准(例如有效性,均匀性,准确性,一致性和完整性)的过程。数据质量管理可从数据集中删除不需要的,重复的和不正确的数据,从而帮助分析师获得更加准确的数据。
企业中的大多数使用高级数据工具来收集大量数据。原始数据通常包含错误,如果不做数据质量管理,可能会导致错误的结果。数据质量管理是数据治理中获得正确上下文和结论的基本步骤。
一、数据质量管理的方法之设置质量标准
数据质量管理的第一步是建立一套质量标准。必须明确定义标准,以从数据集中过程中过滤掉“脏数据”。您可以定义以下几个条件。
数据约束:有多种类型的数据约束可确保收集的数据具有最佳质量,例如:
·数据类型约束:仅限于注册值的范围,例如布尔值,数字,日期等。
·范围限制:数值不是绝对的,而是具有最小和/或最大允许值。
·强制性约束:必须填写所有列。
·唯一性约束:每个字段或字段组合在整个数据集中都必须是唯一的。
·成员资格约束:每列中的一组离散值或代码。
·外键约束:子值可以通过一组允许值添加到其他列。
·正则表达式模式:设置允许的模式,例如电话号码,站号,密码等模式。
设置数据约束有助于在数据收集过程的一开始就保持数据质量。
二、数据质量管理的方法之确保准确性
尽管数据约束在一定程度上确保了正确的数据值,但考虑到该领域的主观方面,准确性仍然是一个挑战。例如,如果必须填写街道地址,则设置模式约束有助于确保密码和状态正确,但是街道地址可能不正确。
进一步有可能规避图案。例如,尽管电话号码格式正确,但是该电话号码可能不正确或无法操作。
三、数据质量管理的方法之删除重复数据
当您组合多个数据集以生成洞察力时,数据集中就会出现重复。重复的数据可能是数据不完整的结果,也可能是数据结构中的问题。例如,在医院数据集中,如果同一位患者因其他疾病而来访,您可能不希望将其视为来自同一位置,具有相同电话号码的两名不同患者。此类数据重复会产生偏差,从而大范围地影响结果。
四、数据质量管理的方法之仅接受完整数据
尽管大多数软件工具不接受不完整的数据,但是使用电子表格或基于纸张的表格可能会导致数据不完整。例如,在维护检查表中,由于信息的不了解或不可用,所提供的问题或解决方案的类型可能不会描述为完整的字段或某些空白字段。
五、数据质量管理的方法之保持一致性和统一性
当不同字段中的两个值相互矛盾时,数据不一致。合并多个部门或时间范围的数据时,会发生这种情况。例如,在旧数据中,员工的名称必须与现在的名称不同。如果数据未正确排序,则此类问题可能会影响数据的结果。
数据的一致性是指度量单位。数据的一致性和统一性对于获得准确的结果至关重要。
六、数据质量管理的方法之提高准确性
数据质量管理是一个三步过程,其中包括考虑上述所有条件以维护数据完整性。根据上述标准收集数据后,可以采取以下措施来提高准确性。
·检验:执行检验以检测整个质量标准中数据的不准确性
·清理:从数据集中删除异常
·验证:对清洁过程进行交叉验证,以确保消除了每个方面的不准确性和不一致性
·报告:创建有关所做的更改以及有关系统中记录的数据的当前质量的报告。
数据质量管理必须是一个连续的过程,因为时间,情况会发生变化,并且会影响记录的数据质量。过时的旧数据可能没有帮助。例如,如果您不更新自己的现场销售CRM数据,从长远来看,可能会影响您的销售潜力。
定期进行数据治理管理有助于您获得准确的见解。准确的数据会助力您的业务决策并成功推动您的战略。
七、数据质量管理平台工具介绍
数据质量管理平台是亿信华辰自主研发的数据质量管理控制工具,用于解决业务系统运行、数据仓库建设及数据治理过程中的数据质量问题。它以标准化的数据质量规范为基础,运用数据挖掘、数据分析、工作流、评分卡、可视化等技术帮助组织建立数据质量管理体系,提升数据的完整性、规范性、及时性、一致性、逻辑性,降低数据管理成本,减少因数据不可靠导致的决策偏差和损失。
数据质量管理是企业数据治理一个重要的组成部分,企业数据治理的所有工作都是围绕提升数据质量目标而开展的。要做好数据质量的管理,应抓住影响数据质量的关键因素,设置质量管理点或质量控制点,从数据的源头抓起,从根本上解决数据质量问题。
数据质量管理有哪些方法相关推荐
- 工业时序大数据质量管理
工业时序大数据质量管理 丁小欧,王宏志,于晟健 哈尔滨工业大学海量数据计算研究中心,黑龙江 哈尔滨 150001 摘要:工业大数据已经成为我国制造业转型升级的重要战略资源,工业大数据分析问题正引起重 ...
- 数据治理-数据质量-数据质量管理方法和工具
常用质量管理工具 目前,在质量管理领域,有一系列常用的数据质量管理工具,主要分为传统的质量管理工具.新的质量管理工具和其他质量管理工具. 传统的质量管理七大工具 传统的七种工具包含分层法.检查表.帕累 ...
- 【数据治理案例分享】论工业企业物料数据质量管理方法
文章摘自[2020数据质量管理标杆奖项征集作品精选],本文荣获DQMIS2020第四届数据质量管理国际峰会之"2020数据质量创新论文奖",论文作者:王建峰. 01 物料数据质量管 ...
- access对比数据_数据仓库系列之数据质量管理
数据质量一直是数据仓库领域一个比较令人头疼的问题,因为数据仓库上层对接很多业务系统,业务系统的脏数据,业务系统变更,都会直接影响数据仓库的数据质量.因此数据仓库的数据质量建设是一些公司的重点工作. 一 ...
- 基于MaxCompute的数仓数据质量管理
声明 本文中介绍的非功能性规范均为建议性规范,产品功能无强制,仅供指导. 参考文献 <大数据之路--阿里巴巴大数据实践>--阿里巴巴数据技术及产品部 著. 背景及目的 数据对一个企业来说已 ...
- 如何做好数据质量管理
数据问题的来源可能产生于从数据源头到数据存储介质的各个环节.在数据采集阶段,数据的真实性.准确性.完整性.时效性都会影响数据质量.除此之外,数据的加工.存储过程都有可能涉及对原始数据的修改,从而引发数 ...
- 数据治理:数据质量管理策略!
数据质量管理包含正确定义数据标准,并采用正确的技术.投入合理的资源来管理数据质量.数据质量管理策略和技术的应用是一个比较广泛的范畴,它可以作用于数据质量管理的事前.事中.事后三个阶段. 数据质量管理应 ...
- DAMA数据治理与数据质量--非结构化数据的数据质量管理
本文根据汪广盛先生在[DQMIS 2020第四届数据质量管理国际峰会]现场演讲内容整理而成. 图1.1 DAMA(国际数据管理协会)中国区主席 汪广盛 演讲嘉宾介绍 -- 汪广盛 国际数据管理协会( ...
- 数据仓库之数据质量管理
目录 第1章 数据质量整体概述 1.1 概述 1.2. 数据质量标准分类 1.3 数据质量管理解决方案 第2章 ODS层数据校验 2.1 数据校验通用脚本 2.2 ODS层各表检验 第3章 DWD ...
最新文章
- 2015年最新出炉的JavaScript开发框架
- Softmax到AMSoftmax(附可视化代码和实现代码)
- LeetCode 508. Most Frequent Subtree Sum
- 单片机指令周期、机器周期、状态周期、时钟周期
- Jsp传值方式(乱码问题的解决)
- SpringBoot使用Websocket
- 写给想要做自动化测试的人
- Opencv求多边形或轮廓的凸包(Hull)
- mysql中null与“空值”的坑
- 2020软考软件设计师--基础知识实战培训视频-任铄-专题视频课程
- English总结(二)--英语常用单词
- 谷歌语法(详解+举例)
- 曾在国内外5家大厂做数据库工程师,这是他给出的5大数据库趋势预测
- User-Agent for Chrome浏览器模拟微信功能
- 试用期没到辞职有工资吗?
- 小学计算机应用到英语课教案,信息技术与小学英语教学有效融合(转载)
- 移动硬盘在mac电脑上不能用的原因和解决方法
- Unity获取Android手机的RAM和剩余RAM和ROM
- C++中fstream的用法
- 《罗马革命》豆瓣 9.1 从恺撒大帝到屋大维
热门文章
- 7-14 与数据库相连
- 某公司的openstack实施招聘要求
- rsync+rsync+crond备份
- JAVA IO - RandomAccessFile
- libnids libnet
- 一起学java【5】---原生态数据类型使用陷阱
- 【To Debug】牛客网--华为机试在线训练3:明明的随机数
- Leetcode 946.验证栈序列
- Tensor的Broadcasting操作
- python : 自定义可迭代类,__iter__ ,__next__的作用