Hive 两张表数据验证方案、两张大表如何进行数据验证以及剔除部分字段进行数据验证
最近的问题是,宽表在上线之前,需要在测试环境进行试跑,试跑结束后如何跟线上正式数据进行比对呢?简单记录一下设计方案。
1、小表数据验证
一些字段比较少的表进行数据验证的方案之前出过
Hive 数据模型切换后的数据验证方案_小菜菜1223的博客-CSDN博客
select * from (select contr_no,user_id,unique_id,if_open_cooperatorfrom test.awhere dt='20220908'
) a
join (select contra_no,usr_id,prod_cd,if_open_cooperatorfrom test.bwhere dt='20220908'
) b
on a.contr_no=b.contra_no
where (coalesce(a.if_open_cooperator,'')!=coalesce(b.if_open_cooperator,'')
)
;
2、宽表数据验证
本次宽表数据验证我想得方法是讲两张表的数据进行union,然后group by 一下查看是否有!=1的数据,这样就能检测出数据有无差异。
select usr_id from (
select * from data_mart_tmp.cust_info_five_lgy_test
union
select * from data_mart_tmp.cust_info_five_lgy_test_2
)a
group by usr_id
having count(*)!=1;
本次宽表的痛点是,如果数据中包含了concat_ws组合出来的数据,本来两条数据是正确的,但是concat_ws的字段数据存在了顺序问题,这样怎么解决呢?
思路就是:
一般concat_ws的字段会比较少,我们可以把这几个字段不进行比较或单独比较,那么在一个几百字段的表格中,如何把剩余的字段拿出来比较呢?
还好Hive支持了这种功能
利用正则将不需要的字段过滤出去不取即可了
set hive.support.quoted.identifiers=none;
select usr_id from (
select `(his_coop_of_withdrawal|source_of_valid_contra)?+.+` from dmp.dm_dmp_cust_info where dt='20221010'
union
select `(his_coop_of_withdrawal|source_of_valid_contra)?+.+` from dmp.dm_dmp_cust_info_test where dt='20221010'
) a
group by usr_id
having count(*)!=1;
Hive 两张表数据验证方案、两张大表如何进行数据验证以及剔除部分字段进行数据验证相关推荐
- html两张图重叠效果,css两张图片怎么叠加在一起?
使用css把两个图片叠加,可以通过position定位属性设置两张图片的位置来实现叠加效果.下面介绍css怎么把两个图片叠加在一起.希望对各位有帮助! 1.新建一个html文件,命名为test.htm ...
- 成佩涛-两张图给你看看两大搜索引擎的区别
咱们先撇开网站的SEO和罗伯特协议方面,单独两张图片可以看出两大搜索引擎在算法上的区别和优劣 百度搜索: 谷歌搜索: 所以,个人还是偏向于强大的谷歌搜索,至少目前感觉是这样的!
- MySQL与Hadoop数据同步方案:Sqoop与Flume的应用探究【上进小菜猪大数据系列】
- 对比两张excel的不同
查找两张excel的不同 =VLOOKUP(B2,[A表.xls]Sheet1!$A$2:$A$114,1,FALSE) 在B表上B2这个位置的值取出,然后在A表范围在$A$2到$A$114中比对是否 ...
- 全网通手机插两张电信卡会怎么样
全网通,顾名思义就是能使用区域内的所有运营商网络都能使用,作为地球上网络制式最多的国家之一,全网通对于中国民众来说异常重要,既然是双卡而且是全网通也就是说,无论任何的sim卡组合都能使用,事实是如此么 ...
- 分布式场景实战第六节 微服务数据治理方案
16 数据一致性:下游服务失败上游服务如何独善其身? 前面三讲我们聊了微服务的 9 个痛点,有些痛点没有好的解决方案,而有些痛点刚好有一些对策,后面的课程我们就来讲解某些痛点对应的解决方案. 这一讲我 ...
- 基于数据库数据增量同步_基于 Flink SQL CDC 的实时数据同步方案
简介:Flink 1.11 引入了 Flink SQL CDC,CDC 能给我们数据和业务间能带来什么变化?本文由 Apache Flink PMC,阿里巴巴技术专家伍翀 (云邪)分享,内容将从传统的 ...
- cdc工具 postgresql_基于 Flink SQL CDC 的实时数据同步方案
作者:伍翀 (云邪) 整理:陈政羽(Flink 社区志愿者) Flink 1.11 引入了 Flink SQL CDC,CDC 能给我们数据和业务间能带来什么变化?本文由 Apache Flink P ...
- 计算机化验证方案,计算机化系统验证方案方针.doc
计算机化系统验证方案方针.doc 紫外分光光度计计算机化系统验证方案方案起草部门职务起草人签名起草日期方案审核部门职务审核人签名审核日期方案批准部门职务批准人签名批准日期 存档日期 年 月 日目 录1 ...
最新文章
- 使用Spring操作Redis的key-value数据
- Docker 阿里云加速和 docker-compose 国内镜像
- thinkphp 学习_4中URL模式
- Servlet学习-MVC开发模式
- 排序算法之七 计数排序(C++版本)
- viper4android脉冲样本,v4a脉冲反馈样本官方版
- html5 for vs2008插件,Chart 控件 for vs2008的安装
- poi-3.17版本 和若依框架结合--excel导出,excel图片导出
- 【日语】日文假名输入与键盘对应
- 解决安装Chrome翻译插件总是报CRX_HEADER_INVALID
- SumatraPDF添加保存标注到TXT文本的功能
- AV1编码器优化技术
- 到底怎么查询域名的IP?(强大的查询网站)
- 面试官:什么是责任链模式?
- 【vbs/bat】强制关闭程序
- 开发EduSoho v8.7.10 本地播放视频超时或者快进后网络错误导致视频下载中途失败。鉴权播放次数问题
- 【SpringBoot】实现短信验证码登录(榛子云的SDK)
- 我要曝光!CDN 省钱大法!
- CAP与ACID原则
- day01-项目介绍以及实现登录功能