前言

本文来自于大数据架构建模大咖群聊天实录。

一问一答一讨论,都是真问题和实战答复。

以下为研讨实录,请查收:

第三方如何做OneID

提问

请教一下大佬,来自于很多合作方的不同渠道用户订单数据如何做oneid,打不通很头疼啊。

回答

第三方,你只能通过你本身的数据(如果有地理位置、姓名啥的)与第三方能提供的信息进行匹配,然后弄个算法计算匹配率。推断一下。

我们与第三方都是推断的。第三方不会给你电话这些用户信息的。

还有一种办法,和他们合作,他们会给你们一些标签。只是标签,没有用户详细信息。我们和**签协议就是拿风控标签。**元一次。没人会给你客户信息,法律就不允许

我们买的是风控标签,其他的我也没有咨询过,因为我们公司是保险行业和互联网结合的所以有点特殊,客户信息非常全,通过一些信息就能匹配出来。

我们和***保险合作就是联邦学习的方式,都不透露客户信息,然后计算相关客户特点。  主要是我们只要用户分析标签,不要具体信息(自己有)。

解决问题的方法

隐私计算,联邦学习,共同建模

现有的方案

蚂蚁的morse(付费)、微众银行的 FATE(开源)、光之树

实际效果

大家都是碰碰运气

这个是看体量,两边都是由上亿用户信息的时候就能跑出点东西,如果只用一点数据,那就没啥意义。

联邦另一个坑是训练太慢,因为双方交换的都不是直接特征数据,防止被推出来原始特征,所以收敛很慢,加上双方数据传输都走网络,比本地慢太多

所以相比本地建模基本搜索上万倍的时间开销,最终效果也会打折扣

公司内联邦落地的不少,厂外联邦选择好像正经用起来的没几个。

感谢 @跨越**、@隽*、@whyme***、@漫** 等大佬的精彩答复。

银行信贷业务数仓建模

提问

想请教各位大佬一个数仓建模问题:

以银行信贷业务为例,源系统的模型如下(个人理解应该事实维度划分了),那数仓DWD层还需要再建模么?

源系统表如下

  • 基本信贷客户数据表(维度表,包括借款方和担保方)

  • 借款方的借款合同表(事实表,含维度1信息)

  • 借款合同和担保合同(押品,担保人)关系表 (个人理解这个是无事实的事实表,是N:M 关系)

  • 押品信息表 (维度表)担保人信息表(维度表)

不是主从,就比如公司借款100万,有80万通过房产担保,20万通过担保人担保。反之,有500万的房产,可以给2-3个借款合同作担保。

就是想问问,这种源表的结构,进了数仓还用怎么建模吗?感觉宽表也不能拉,事实和维度也和源表差不多,数据粒度也一致,那中间层怎么搞?现在是直接ods到了adm。

回答:

把2和3的合并,构建一个借款事实表   粒度是借款和合同的组合。

100万这个生成两条记录:借款合同和担保合同。

借款事实表上 借款 和担保的合同外健都有,关系就落在了借款事实表上。

贷款合同,借款还款,利息,以及担保和额度不是同一个层次的东西。

贷款合同是和facility自己担保关联的,合同项下的借款还款,利息支付是下一层级的记录,对于普通的商业贷款应该这么理解。对于贸易融资做法可能有不同。

授信是针对贷款主体的。担保是贷款主体额外的一个保证。担保者是第三方。

担保的履约,实际上就是贷款主体违约造成的由担保者承担责任义务。

担保者可以是母公司,集团公司,或者是供应链上的买卖方,俗称大腿。

授信一般都要有,担保不一定非要有。

看看EAST 4.0 数据标准,里面有信贷方面的主题,看看是否有参考价值。

EAST是银保监倒逼银行数据治理的一个监管政策。

都是明细数据,分十个主题,校验规则也很多,对学习银行业务很有帮助。

感谢 @风在**、@散步的**、@Whyme、@Feyn**等一众大佬的专业解答。

hive 怎么切片

提问

又遇到个问题,面试的时候人家问你们的hive数仓怎么切片的,我完全不知道怎么说更全面。

回答:

切片和分区不同,切片是并发搬迁后最终在Hive里还是一个文件, 分区Hive相当于一个文件夹,分几个区就保持几个文件夹的。分区不是关系数据库的物理字段,是一个逻辑概念,在Hive对应的就是文件夹。

切片表其实就是只展示某一个维度的数据表。按照维度枚举值,可以分多个切片,对应多个实例任务做数据接入。高并发,提升效率。

全量表:记录每天的所有的最新状态的数据,

增量表:记录每天的新增数据,增量数据是上次导出之后的新数据。

快照表:按日分区,记录截止数据日期的全量数据

切片表:切片表根据基础表,往往只反映某一个维度的相应数据。其表结构与基础表结构相同,但数据往往只有某一维度,或者某一个事实条件的数据。

结语

用一个哥们的私信作为结语吧:

加油,数字人,今天又是美好的一天!

感谢阅读,本次分享的内容就结束了。也欢迎大家加我微信,咱俩私聊啊

推荐阅读

大数据架构建模群大咖研讨实录-20210406

产品架构群大咖研讨实录-20210426

大数据架构建模群大咖研讨实录-20210426

大数据架构建模群大咖研讨实录-20210427

更多精彩:

实战派:大数据架构师现场答疑实录20210429相关推荐

  1. 作为一名11年的大数据架构师,没有我搞不定的需求~

    大家好我是Brave,前金蝶(中国)软件JAVA架构师,因为觉得没挑战转了大数据,目前在一家科技企业工作,做产品架构和大数据架构,主要项目是交通大数据,业余时间爱好是考证,今年3月的时候拿了华为的大数 ...

  2. 大数据架构师应该做到的

    ---- github地址 ---- 关于软实力部分同步会更新场景落地 ---- 直接访问ProcessOn脑图 请点击 ---- 高清大图 ---- 脑图文件 技能图 大数据架构师该掌握的技能 主要 ...

  3. 数据中台已成气候!大数据架构师如何站上风口?

    你被大数据杀过熟吗?当今企业对数据的重视度越来越高,在大数据系统架构设计层面,大数据架构师需要完成技术决策.技术选型,还需要根据不同时期的业务场景,不断优化和演进软件架构,最终攻克技术难点.化解技术风 ...

  4. 这可能是程序员学习大数据架构师的最佳之路!另附送1024G学习资料!

    随着大数据时代的到来,[这次国家教育部的改革要动真格了],JAVA程序员们仅有的一点点竞争力很快就不复存在,为什么这么说呢? 人生别只顾低头拉车,更要抬头看路! 国家教育部全面改革:大数据领衔 所有高 ...

  5. 大数据架构师基础:hadoop家族,Cloudera产品系列等各种技术

    大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来.为了能够更好的架构大数据项目,这里整理一下,供技术人员,项目经理,架构师选 ...

  6. 大数据架构师指南 pdf_ZTE十年大数据架构师教你:高效搭建企业IT系统架构,超越CTO...

    前言 如果你是一名IT工程师,首席技术官( CTO)希望你在一周内提交一份公司未来IT系统基础架构的初步建议;如果你是一位IT营销人员,客户需要你在一周内向他汇报未来大数据系统的大致技术方向... . ...

  7. 大数据架构师深入学习视频教程

    大数据架构师深入学习视频教程 大数据分析你要掌握概率统计学的知识,学会数据分析工具的使用.比如MATLAB,这个工具非常强大,掌握起来有些难度.但不是说你掌握了这个工具就能胜任数据分析师的工作了.你还 ...

  8. BATJ大数据架构师带你领略实时计算框架Flink的魅力!

    你是不是经常体验或看到以下这些场景? "小张,你看能不能做个监控大屏实时查看促销活动销售额(GMV)?" "小王,我们现在搞促销活动能不能实时统计销量 Top3 啊?&q ...

  9. 如何成为大数据架构师?

    要想成为架构师这几点你必须关注! 架构不是一个职业而是一种能力,每一种架构师只不过是在不同的领域里面使用不同的技术,没有什么可对比,就好比如你问一个篮球明星和一个足球明星有什么区别一样! 01  架构 ...

最新文章

  1. 【Groovy】编译时元编程 ( ASTTransformation#visit 方法简介 | org.codehaus.groovy.ast.ModuleNode 脚本节点 )
  2. 二阶系统响应指标图_15. 闭环系统的频域性能指标
  3. 动态链接库、静态库区别与VS2005项目相关设置
  4. 流式视频处理架构设计
  5. Android通过广播实现强制下线功能
  6. thinkphp3 php jwt,thinkphp框架使用JWTtoken的方法详解
  7. Linux学习之Ubuntu安装Java
  8. 【JEECG技术博文】Local storage easyui extensions
  9. 蜗牛导航网站模板+随机壁纸+天气插件
  10. 好系统教你如何在Windows中更改文件夹的图标
  11. 私有方法,私有属性在继承中的应用
  12. mysql not exists优化_MySQL优化--NOT EXISTS和LEFT JOIN方式差异
  13. 关于jq easyui 刷新tabs的问题
  14. 2021级C语言大作业 - 一笔画
  15. jQuery自己定义绑定的魔法升级版
  16. 数据库开发常见面试题
  17. XRD 数据处理:使用 Origin 进行多谱图对比
  18. 计算机共享wf,电脑怎么共享wifi网络
  19. 2021充电必备:推荐一些免费的电子书网站及TXT阅读器
  20. Edison Chou

热门文章

  1. 会计职业道德、会计职业道德与会计法律制度的区别与联系、会计职业道德的内容
  2. 理论地震图的相关资料
  3. 《纸牌屋》是如何成为热播剧的?
  4. 解决网心云Z1业务端口不通,请开放所有端口
  5. DODO和Boba Network 建立合作,提高流动性和发行能力
  6. 【错误记录】Tinker 热修复示例运行报错 ( patch receive fail: /storage/emulated/0/patch_signed_7zip.apk, code: -2)
  7. 软件设计六大内功心法
  8. 计算机电源三个方面,选择计算机电源要注意什么?
  9. Phase transitions in information spreading on structured populations
  10. HTML中给图片添加网站超链接