背景介绍

在日常数据研发工作中,我们会遇到如下常见场景问题,其一为:数据测试人员要对产出多表的一致性进行检测,其二为:数据对账体系,如资金流和订单数据要保持一致,其三为:数据模型迁移过程中,要对迁移前后的数据进行对比,其四为:数据存储在不同库中,例如A存储到ODPS,B存储到ADB,其中AB库中数据必须要保持一致。

如上述4种常见问题,我们需要一套能界面交互(勾选或低代码交互)、离线核对、实时核对、通知告警等全流程闭环的解决方案。

如果没有上述完整的解决方案和平台,我们需要手动写SQL去对比,每个人对于一致性的指标会有所不同,而且也没有评估标准,更为难的是如果存在不同源之间的对比,涉及到代码开发,无疑人力成本会更高。

业务价值

一:提高数据对比的效率,并节省人力成本,验证数据(核对数据),要实现低代码交互(或无代码),特别是不同源数据或实时数据进行比对。

二:统一数据比对的标准,沉淀专家经验,对所核对的出来的指标进行统一度量,并可作为一致性分数提供至质量分建设中。

离线数据核对设计思路

离线数据核对主要是分为两种类型,第一种为量级对比,例如表行数比对,某字段空值量级比对,第二种为全文比对,但是必须要有数据主键(无论是同一个数据源,或是不同的数据源)。目前也有开源代码实现:参考地址

实时数据核对设计思路

假设有用户系统U和订单系统O,其中用户系统的表为A,订单系统的表为B,并且两张表存在关联关系。

并且可能存在如下情况:

  1. A表数据到达后,B表数据在一段时间内更新为正确的值
  2. A表数据到达后,B表数据在一段时间内更新为错误的值
  3. A表数据到达后,B表数据一直未更新
  4. A表数据到达后,B表数据晚于预计时间到达,延迟更新为正确的值
  5. A表数据到达后,B表数据晚于预计时间到达,延迟更新为错误的值

为了检查出以上2~5种异常数据,我们需要进行实时核对。

核心原理:通过同步数据库到OLAP库中(如ADB For Mysql),不影响线上业务,类似ODPS的跨库JOIN。同时,限定查询数据库的时间范围,提升查询性能以在规定时间内输出结果。

具体方案:因实时核对有时效性要求,并且通常一个表更新后需要一段时间另一个表才会更新,故需要进行定义窗口时间、滑动时间及时延范围。

举例说明:

其中主表数据为每次取10分钟的窗口数据,滑动也为10分钟,而对比表数据则是在主表的窗口时间10分钟+5分钟(时延范围)

数据对比DataCompare系统设计原理相关推荐

  1. dataCompare大数据对比之异源数据对比

    在从0到1介绍一下开源大数据比对平台dataCompare 已经详细介绍了dataCompare 的功能,目前dataCompare 已经实现同源数据的对比 一.dataCompare 现有核心功能如 ...

  2. 《数据密集型应用系统设计》读书笔记——第一部分 数据系统基础

    第一部分 数据系统基础 第1章 可靠.可扩展与可维护的应用系统 当今许多新型应用都属于数据密集型,而不是计算密集型.对于这些类型应用,CPU的处理能力往往不是第一限制性因素,关键在于数据量.数据的复杂 ...

  3. 数据湖存储格式Hudi原理与实践

    今天给大家分享阿里云DLA团队技术专家李伟所做的分享<数据湖存储格式Hudi原理yu .pdf>,对数据湖及Apache Hudigan兴趣的伙伴别错过啦!(到省时查报告小程序中搜索&qu ...

  4. 计算机信息管理系统设计原理探究,计算机信息管理系统设计原理探究

    盛巍 摘 要:在计算机信息技术发展和应用速度不断提升的背景之下,我国社会各个行业的计算机信息管理系统需求不断提升.人们可以通过计算机信息管理系统收集自己需要的信息资料,并对数据信息进行分析,在各项决策 ...

  5. mpAndroidchart 坐标和图表距离_数据对比图表,如何让你的总结报告更具说服力!...

    数据对比大揭秘,业绩PK看这里. "数据解锁表达,用好PPT图表,让我们的演示更有说服力." 数据,作为PPT报告中最重要的呈现要素,借助图表的展示形式,能够将冰冷的文本数据更直观 ...

  6. 【技术美术】千人千面如何炼成 技术讲解捏脸系统设计原理

    学习自 http://games.sina.com.cn/o/z/wuxia/2015-10-15/fxivsch3599438-p5.shtml 1. 技术讲解捏脸系统设计原理 天刀脸模型的风格定位 ...

  7. 计算机管理系统的发展方向论文,浅探计算机信息管理系统设计原理及发展趋势...

    摘要:近年来, 随着经济的发展和社会的进步, 人们越来越重视对科学技术的依赖和应用, 计算机网络得到了空前的普及和推广, 其在一定程度上, 有效地为人们的生产和生活带来了便利的条件.但是随着人们的物质 ...

  8. 【达梦数据库】数据实时同步软件 + 数据对比工具

    文章目录 前言 一.数据实时同步软件 1.1 简单介绍 1.2 模块说明 二.数据对比工具 2.1 简单介绍 2.2 架构说明 三.DMETL vs DMHS 总结 前言 达梦数据实时同步软件(DMH ...

  9. 二维条码识别系统设计原理

    首     页 条码控件 条码技术 条码新闻 合作伙伴 联系我们 常见问题 电话:010-84827961 当前位置:条形码控件网 > 条形码控件技术文章 > >正文 二维条码识别系 ...

最新文章

  1. android 设置允许http请求_网络请求框架----OkHttp原理
  2. 类与对象与结构体的区别
  3. SQL学习之组合查询(UNION)
  4. 图片点击放大并可点击旋转插件(1)-jquery.artZoom.js
  5. C++学习笔记1[数据类型]
  6. Firewalld防火墙应用
  7. How to upload windows Sysprep Files to VMware vCenter Server Appliance 6.5(vC
  8. [Swift]LeetCode853. 车队 | Car Fleet
  9. cocos怎么把res文件夹放服务器上,cocos2d 三合一跑胡子房卡+服务器组件+后台控制+安装教程+棋牌完整源码...
  10. Java并发编程实战————Executor框架与任务执行
  11. Shell命令之ps获取指定进程的进程号
  12. 牌组资源英语_「桌游推荐」如果当年有这种能背单词的桌游,我早就成英语学霸了...
  13. es的doc_value对排序字段的作用
  14. symantec:硝基***针对化工厂商
  15. 制作CDKEY:有效期的处理
  16. 蓝牙耳机哪个音质好?推荐几款音质好的蓝牙耳机
  17. 研发 | Unity资源商店里的免费资源,你一定要知道!
  18. Day45. 数据分析实战(1):超市运营数据分析
  19. 听java技术讲座心得体会_听讲座心得体会范文3篇
  20. 纯JS实现slideToggle动画,慢慢下拉打开

热门文章

  1. Android之录音功能
  2. 基于Alios的后台API接口任务
  3. 有库存数量报警和提示功能的进销存软件是怎样的
  4. (7)Why 30 is not the new 20
  5. 女人的十种养生好食物
  6. 常见16种HTTP状态返回码
  7. 广工物理实验报告-用拉伸法测量杨氏模量
  8. 链塔智库|区块链产业要闻及动态周报(2020年7月第2周)
  9. 信息管理专业的相关证书
  10. MiniUI 实战演练视频教程-专题视频课程