来源:数据专题

全文共 2541 个字,建议阅读 分钟

关于数据质量的度量维度,业内还没有一个统一的标准,以下分享几个常见的数据质量度量维度。

1、记录数完整

记录数:正在评估数据集的记录数值。

检查记录数量是否与预期数量相负。如果不符,调查却是记录的根本原因并再次剖析数据集。

2、完整性&填充率

完整性或填充率:包含值的字段的数量和百分比的测量标准。

完整性或填充率只基于数值的存在性。需要另外的分析以确定这些值是否有效。

要诠释结果,需要知道那些字段是必须的(强制性的)、可选择的或有条件的。如果字段是必填的(应用必填、业务必填或者该字段是主键),其填充率应是100%。

如果必填字段的填充率小于100%,请调查以下原因:

如果是业务必填字段,查看应用软件是否需要登录;

如果应用软件不需登录,查看其是否可针对需要的数据进行修改;

如果应用软件不能修改,对那些录入数据的人的资料进行归档,并对他们进行培训。这种情况下,应密切监视数据;

检查在数据库中实施“非空”的可行性;

在两个不同层面上检查完整性/填充率:

单个列或字段:确定字段中是否存在数据;

一组数据:确定完成特定基本流程所需一系列字段的填充率。

3、空值/空字段

空:空字段(空是因为字段中什么也没有)的数量和百分比的测量标准。

空是与完整性和填充率相反的。完整性或填充率的分析同样适用于此,只需用相反的观点来进行评判。

4、唯一值列表

唯一值列表:字段中不同或唯一值的列表。

确定数值是允许的或有效的。不同的字段的有效值集也不同。有效值集也被看成数据域或值域集。

检查该字段中不同值的数目与有效值的数目。

可能的话,比较实际的不同值列表与预期有效值列表。预期有效值可来自诸如参考表格或编码列表的数值列表,也可来自主题专家,或来自公司遵循的外部标准。

如果业务没有有效值列表,请使用来自剖析的列表作为起点来开发一个有效值列表。

寻找默认值,将默认值归档;

寻找有重复含义的值;

如果对数值列表进行变更,将所有数值映射归档,并用需要变更的值更新记录。

5、数据有效性

有效性:对字段中的值是否在允许的或有效的数值集中的测试。

对每个字段的“有效的”含义进行定义和归档;不同字段的有效性构成不同。

合法性测试可包括格式或样式、域、有效编码、类型(字母的/数字的)、依赖关系、业务规则、数据录入标准、最大和最小范围,等等。

例如,记录中的所有编码是否被系统编码表中的业务定义为有效编码;如果是数字字段,字段中是否有字幕;日期字段中的日期是否在必需的范围内。

有效性测试结果可以完整性/填充率的百分比来报告。

6、频率分布

频率分布:字段中唯一值的分布,通过数量和百分比来度量。

频率分布给出了一个使用思路,评判最高和最低数量值。

可考虑放弃那些使用频率低的数值,并改用一个常用的可比价的数值。

研究所发现的常量。常量是指每个记录有相同数值的任一列,这可以是从未使用或不再使用的数据元素的标志。

确定数值分布是否是所期望的分布。

如果对数值列表已做变更,请将数值映射归档,并用需要变更的数值更新记录。

寻找在分析信息环境时可能已发现的且正被业务广泛使用的那些异常数值的发生频率。

观察默认值或假值的频率分布,使用频率分布来确定待选主键。

如果不同值的比重较低,等值字段可能是相关的,许多空值或零值可能就有问题了。通常50%的不同值将由其他列确定是否为纯业务数据。

有特定值的字段(例如,所有记录在该字段的值均相等)是潜在无用的或具有常数属性,确定是否应为此在数据库中占用一定空间。考虑输入到一个常数表中。

7、最大数值和最小数值范围

最大数值和最小数值范围:由最大数值和最小数值表示的数值范围。

数值范围上界和下界的任何数值可快速显示数据质量问题;

观察重要日期字段的最大值和最小值;

寻找期望之外的或归档范围以外的数值。

8、数据新鲜度

新鲜度:关键日期字段或日期范围的频率分布。

与日期字段或数据范围相关的一类频率分布;

还被用于向两个其他数据质量维度模拟或提供输入数据:及时性(数据的及时程度)和数据衰变(数据的负面变化率)。

9、内容

内容:数据内容与列或字段名称的匹配。

比较列或字段名与数据内容;

字段包含的是否是预期数据。

10、重复

重复:确定是否存在意外重复。

通过评判重复含义数值列表来获取重复数据的高层视图;

有些工具提供不同列间的数据值比较,以及通常基于不同数值精确字符串匹配的重叠百分比;

有些数据剖析工具强调仅基于精确字符串匹配的重复数据,但其他工具使用经常被称为“模糊匹配”的工具。

11、数据类型

寻找通过剖析工具推断的、预期数据类型和实际数据类型之间的差异。

工具可显示归档的数据类型(或每个元数据的预期数据类型),并与从实际数据内容中推断出的数据类型进行比较;该工具也标记源数据类型和目标数据类型之间的不相容性,该问题需在迁移数据时予以解决。

对数据模型而言,该工具也呈现数据类型以及可用于该模型中的替代数据类型实例。

12、大小或长度

大小或长度:字段中数据的长度。

寻找实际数据大小与预期数据大小之间的差异;

寻找大量具有完全相同大小的记录,这可显示出在该字段中已被缩减了的数据;

如果源和目标系统之间的大小存在差异,确定超出目标大小的源记录的数目和百分比:如果数目小,需人工更新记录;如果数目大,需了解如果数据在迁移时被删减将会对业务产生什么影响。

13、样式

样式:数据中发现的唯一式样的数量和百分比。

寻找意外的样式;

预期的或有效的样式将根据字段的不同而不同;

寻找ID字段的同一样式。

14、精度

对数字数据,要确定小数点的位置是否在所需精度的位置。

15、一致性

一致性:同一记录中相关字段的合理性测试。引用完整性。

评判记录中数据的一致性;

评判记录之间数据的一致性;

评判高层业务规则以了解其关联关系,并寻找符合性;

寻找其他依赖关系。一个字段中具有正确格式的值与另一个字段中的值相关联;

寻找计算:作为每一个源元素的存储计算值是正确的。

16、并发性和及时性

并发性和及时性:各种数据库、应用软件和流程之间的数据同步和数据时延,剖析多个数据库,并比较其结果的差异。

17、业务规则

确定是否没被植入进数据结构中的业务/数据规则正在由应用程序逻辑实施。

这通常都是针对有自身规则的数据子集。例如,可能有具有特定规则的不同当事者类型(组织、合同等),这些规则需要某些列为空,而其他列要输入。

‍‍‍‍‍长按以识别二维码,加入大数据微信号群~ 

‍‍‍‍‍

公众号推送规则变了

点击上方公众号名片,收藏公众号,不错过精彩内容推送!

往期推荐

京东科技埋点数据治理和平台建设实践

数据开发十条锦囊

浅谈数据治理体系演进

怎么理解数据网格(Data Mesh)

如何成为数据极客?

一学就会一用却废!到底应该用ETL还是ELT?

数据治理:数据质量的度量维度!相关推荐

  1. 数据治理-数据质量-数据质量的概念和维度

    大数据质量的基本概念 数据是表示事物各种属性的基本元素,通常情况下,只要符合数据应用的需要,就可以将它视为合格数据,即数据质量合格.结合质量的定义分析可知,数据质量就是"一组固有特征满足表示 ...

  2. 数据资产运营 = 数据资产盘点 + 数据治理 + 数据价值实现

    略去大数据分析背景与价值部分,言简意赅的介绍如何进行数据资产管理运营. 数据资产管理运营 = 数据资产盘点 + 数据治理 + 数据价值实现 管理和运营是一个全流程的事情,首先我们需要知道有哪些数据(盘 ...

  3. 数据治理-数据质量-数据质量实施方法

    质量实施方法 数据质量领域研究学者和专家结合自身实践,先后提出了一系列质量管理得项目实施方法,其中以全面信息质量管理.全面数据质量管理.数据管理十步法.六西格玛等.         与传统数据质量管理 ...

  4. 数据治理-数据质量-数据质量管理方法和工具

    常用质量管理工具 目前,在质量管理领域,有一系列常用的数据质量管理工具,主要分为传统的质量管理工具.新的质量管理工具和其他质量管理工具. 传统的质量管理七大工具 传统的七种工具包含分层法.检查表.帕累 ...

  5. 数据治理|数据资产中心

    01 前言 我们来聊聊数据治理最最核心的部分--数据资产治理,本文主要阐述数据资产治理的策略和工具建设思路. 02 基本概念 广义的数据资产涵盖一切非结构化.半结构化和结构化数据,狭义的数据资产主要包 ...

  6. 数据治理-数据生命周期管理-大数据采集

    大数据采集 为满足企业或组织不同层次的管理与应用的需求,数据采集分为三个层次. 第一层次,业务电子化.为满足业务电子化的需求,实现业务流程的信息化记录,在本阶段中,主要实现对于手工单证的电子化存储,并 ...

  7. 数据治理——数据质量管理

    目录 数据质量保障原则 完整性 准确性 一致性 及时性 常见的数据监控原则 单表数据量监控 单表空值检测 单表重复值检测 单表值域检测 跨表数据量对比 在当今这个大数据时代,数据质量对于数据的价值有着 ...

  8. 大数据治理.数据储存技术

    1. HIVE & HBase hive是基于Hadoop的一个数据仓库工具,用来进行数据提取.转化.加载,这是一种可以存储.查询和分析存储在Hadoop中的大规模数据的机制.hive数据仓库 ...

  9. 数据治理-数据生命周期管理-大数据归档与销毁

    数据归档 在大数据时代,存储成本显著降低的情况,企业希望在技术方案的能力范围之内尽量存储更多的数据.但大数据时代同样带来了数据的急剧增长,因此数据归档仍然是数据管理必须考虑的问题.与传统的数据备份和数 ...

最新文章

  1. 【翻译】CEDEC2012 SQUARE ENIX GPGPU实现高速GI烘培工具的方法
  2. 如何看待瘦身成功版BERT——ALBERT?
  3. android进程自动启动时间,如何统计Android App启动时间
  4. codeforce 266c Below the Diagonal 矩阵变换 (思维题)
  5. 《CMake实践》笔记二:INSTALL/CMAKE_INSTALL_PREFIX
  6. /dev/tty和/dev/console
  7. html改变微信标题栏颜色,带你了解微信在线编辑器的颜色样式修改
  8. Linux系统下 MongoDB安装搭建
  9. java接口_Java接口
  10. ssh相互访问不用密码
  11. 更新:第6章已上线!最酷的程序员应该知道的【LLVM】!
  12. 利用php利用root权限执行shell脚本必须进行以下几个步骤
  13. USBVIEW(带已分配带宽显示功能)-电脑圈圈
  14. 工作流引擎 html5,强大的工作流引擎管理软件平台_轻松实现流程管控_任务驱动...
  15. 职称计算机ppt,2017年职称计算机考试(PPT练习题大全)(3)
  16. 移动端excel导出_Excel格式的手机端和电脑端转换方法,一键就可以实现,不知可惜...
  17. 电脑硬盘怎样合并分区?
  18. Python将Excel文件插入Mysql数据库(脚本)
  19. spring的优点与缺点
  20. Ubuntu 14.04 更换源(官方源——阿里源)

热门文章

  1. js计算斐波那契数列第n项的值
  2. 项目实训-收尾工作-组织协调
  3. python数据按照分组进行频数_Pandas:按两列分组并计算第二列中所有值的出现次数...
  4. js实现数据列表上下移动
  5. 电脑如何设置微信里打印准考证
  6. 2022年注册安全工程师安全生产专业实务(建设施工安全)考试模拟试题卷及答案
  7. java实现支付宝扫码支付和回调的Demo源码
  8. 【报错】面试沟通,要运行ruoyi 框架截图,之前没接触过
  9. 一个真正简洁、干净的浏览器主页Speedceo
  10. 如何在个人电脑上创建mysql