数据质量是保证数据应用的基础,它的评估标准主要包括四个方面,完整性、一致性、准确性、及时性。评估数据是否达到预期设定的质量要求,就可以通过这四个方面来进行判断。

数据质量的四种评估标准 数据质量是保证数据应用的基础,它的评估标准主要包括四个方面,完整性、一致性、准确性、及时性。评估数据是否达到预期设定的质量要求,就可以通过这四个方面来进行判断。

完整性

完整性指的是数据信息是否存在缺失的状况,数据缺失的情况可能是整个数据记录缺失,也可能是数据中某个字段信息的记录缺失。不完整的数据所能借鉴的价值就会大大降低,也是数据质量最为基础的一项评估标准。 数据质量的完整性比较容易去评估,一般我们可以通过数据统计中的记录值和唯一值进行评估。例如,网站日志日访问量就是一个记录值,平时的日访问量在1000左右,突然某一天降到100了,需要检查一下数据是否存在缺失了。再例如,网站统计地域分布情况的每一个地区名就是一个唯一值,我国包括了32个省和直辖市,如果统计得到的唯一值小于32,则可以判断数据有可能存在缺失。

一致性
一致性是指数据是否遵循了统一的规范,数据集合是否保持了统一的格式。 数据质量的一致性主要体现在数据记录的规范和数据是否符合逻辑。规范指的是,一项数据存在它特定的格式,例如手机号码一定是13位的数字,IP地址一定是由4个0到255间的数字加上”.”组成的。逻辑指的是,多项数据间存在着固定的逻辑关系,例如PV一定是大于等于UV的,跳出率一定是在0到1之间的。 一般的数据都有着标准的编码规则,对于数据记录的一致性检验是较为简单的,只要符合标准编码规则即可,例如地区类的标准编码格式为“北京”而不是“北京市”,我们只需将相应的唯一值映射到标准的唯一值上就可以了。

准确性
准确性是指数据记录的信息是否存在异常或错误。和一致性不一样,存在准确性问题的数据不仅仅只是规则上的不一致。最为常见的数据准确性错误就如乱码。其次,异常的大或者小的数据也是不符合条件的数据。 数据质量的准确性可能存在于个别记录,也可能存在于整个数据集,例如数量级记录错误。这类错误则可以使用最大值和最小值的统计量去审核。 一般数据都符合正态分布的规律,如果一些占比少的数据存在问题,则可以通过比较其他数量少的数据比例,来做出判断。 当然如果统计的数据异常并不显著,但依然存在着错误,这类值的检查是最为困难的,需要通过复杂的统计分析对比找到蛛丝马迹,这里可以借助一些数据分析工具,那么具体的数据修正方法就不在这里介绍了。

及时性
及时性是指数据从产生到可以查看的时间间隔,也叫数据的延时时长。及时性对于数据分析本身要求并不高,但如果数据分析周期加上数据建立的时间过长,就可能导致分析得出的结论失去了借鉴意义。

数据质量的四种评估标准相关推荐

  1. linux数据同步技术比较,linux下实现web数据同步的四种方式(性能比较)教程.docx

    linux下实现web数据同步的四种方式(性能比较)教程 实现web数据同步的四种方式=======================================1.nfs实现web数据共享2.rs ...

  2. linux下实现web数据同步的四种方式(性能比较)

    实现web数据同步的四种方式 ======================================= 1.nfs实现web数据共享 2.rsync +inotify实现web数据同步 3.rs ...

  3. 大数据可视化python_大数据分析之Python数据可视化的四种简易方法

    本篇文章探讨了大数据分析之Python数据可视化的四种简易方法,希望阅读本篇文章以后大家有所收获,帮助大家对相关内容的理解更加深入. < 数据可视化是任何数据科学或机器学习项目的一个重要组成部分 ...

  4. Python 数据降噪处理的四种方法——均值滤波、小波变换、奇异值分解、改变binSize

    Python 数据降噪处理的四种方法--均值滤波.小波变换.奇异值分解.改变binSize github主页:https://github.com/Taot-chen 一.均值滤波 1)算法思想 给定 ...

  5. 实现web数据同步的四种方式

    实现web数据同步的四种方式 ======================================= 1.nfs实现web数据共享 2.rsync +inotify实现web数据同步 3.rs ...

  6. python 财务分析可视化方法_Python数据可视化的四种简易方法

    Python数据可视化的四种简易方法 作者:PHPYuan 时间:2018-11-28 03:40:43 摘要: 本文讲述了热图.二维密度图.蜘蛛图.树形图这四种Python数据可视化方法. 数据可视 ...

  7. python流程图的基本元素有哪些_数据流程图的四种基本元素是什么?

    数据流程图(Data Flow Diagram,DFD/Data Flow Chart), 是一种能全面地描述系统数据流程的主要工具,它用一组符号来描述整个系统中信息的全貌,综合地反映出信息在系统中的 ...

  8. 解决存储过程中数据安全问题的四种方式

    随着科技的不断发展,数据量也正在呈指数倍的增加.在这样一个大背景下,存储产品成为了时下市场中最热的产品.而数据的安全性也变得尤为重要.后端存储已经逐渐成为企业业务系统的核心和关键. 一般而言,我们有四 ...

  9. python做前端可视化_Python数据可视化的四种简易方法

    摘要: 本文讲述了热图.二维密度图.蜘蛛图.树形图这四种Python数据可视化方法. 数据可视化是任何数据科学或机器学习项目的一个重要组成部分.人们常常会从探索数据分析(EDA)开始,来深入了解数据, ...

最新文章

  1. 一个Spring AOP的坑!很多人都犯过!
  2. 人体关键点颜色和预处理
  3. 以后国产手机都要装鸿蒙系统吗,如果华为发布鸿蒙手机操作系统,国产软件会能用吗,形成一个生态系统吗?...
  4. mpvue小程序架构搭建详细介绍
  5. 计算机快捷键知识点,电脑常用快捷键基础的知识点(12页)-原创力文档
  6. Java入门篇 2021/02/22
  7. 代码画简单动物_[500行代码学懂OpenGL]之六数学知识
  8. win7如何安装mysql5.7_Win7下安装MySQL5.7备忘
  9. 阿拉伯数字转中文大(小)写的函数
  10. 机器学习11/100天-KNN实践
  11. Flex的TabNavigator中tab触发的事件
  12. mysql update case when和where之间的注意事项
  13. 车站计算机系统需要具备几天数据储存能力,(复习资料)城市轨道交通车站设备1.doc...
  14. pip:你真的熟悉怎么用了吗?
  15. 295.数据流的中位数
  16. 华为云查询弹性云服务器规格信息,查询规格详情和规格扩展信息列表
  17. 快速幂计算x的n次幂,递归版本、迭代版本、python实现
  18. [英语阅读]英国13岁男孩当爹引各界热议
  19. NPM 2FA双重认证的设置方法
  20. 【该文章已被封禁】区块链钱包APP逆向分析及实现

热门文章

  1. eclipse ssh mysql数据库_Eclipse搭建SSH环境实现Struts2分页显示mysql数据库表中内容...
  2. 人民币今日对美元升值 开始实行浮动汇率制
  3. 《选择》比努力更重要——C语言
  4. 正则表达式匹配大括号
  5. 西门子PLC 简单启停功能实现
  6. 1分钟教你自己动手装系统
  7. Day9——用栈实现队列、用队实现拟栈
  8. 由“stay hungry,stay foolish”所引发出的内心激荡
  9. 递归Partial类型
  10. element-ui实现图片上传功能(前台部分)