还没整理好,别慌。

一,业务问题:

多个表关联join(涉及时间维度跨度很长),几乎等同于全量关联,这个时候flink sql join没法做,因为state会无线增大,然后OOM。

二,解决方案 :

使用doris去做大宽表。

方案1,数据写入ods层,然后sql语句关联定时写入dws层,类似离线批处理。

这种就是替代hive离线计算的方案。

方案2,数据写入大宽表,利用doris特性。

https://cloud.baidu.com/doc/DORIS/s/3kmealtpc

1)创建doris大宽表 -Agg模型

可以尝试自己去创建一个表,相同的主键数据  后者字段值会覆盖前者,而不是想unqi模型一样是相同主键 整行数据替换。

2) 插入对应的数据

id是主键

A流插入  id  a

B流插入   id  b

C流插入  id  c

3)存在的问题,以及怎么解决

1,插入的流数据比如有相同的主键,如果是维表 要在插入之前同步为相同的主键字段

2,联合主键场景

三,flink cdc 写入doris

这个很简单,doris 目前支持flink sql 或者 flink cdc写入 直接调用stream load方式写入doris,官方有包。

四,不是很明白的地方。

主要是解决维表 生成主键的问题。

要先导入明细数据,然后再接入维表数据,维表数据去补全数据,然后再写入,在这个过程中肯定有个延迟。

我画了个图方便理解:

五,补充

Tidb 可以用hbase类似的代替,我也没用过tidb,成本太高。

Flink cdc+ doris 大宽表实践~相关推荐

  1. 【视频特辑】数据分析师必备,快速制作一张强大好用的大宽表

    简介:随着企业数字化进程的逐步推进,在日常经营过程当中会沉淀下越来越多的数据信息. 每当想做数据分析的时候,就会发现想要的指标分散在不同的数据源.数据集.数据表当中. Quick BI的数据关联功能, ...

  2. Elasticseach:从微服务架构演变到大宽表思维的架构转变

    序言 图示:Elasticsearch 在DB-Engine综合排名第8 Elasticsearch 简称"ES", 在DB-Engine 综合排名第8,已经持续了相当长的时间,按 ...

  3. spark 宽表 mysql_扒一扒某厂的新零售用户画像系统大宽表 | 知识整理

    扒一扒某厂如何构建新零售领域中用户画像的大宽表.字数不多,就600字. 用户画像系统的维度表构建 画像大维表是一个画像系统所支持的所有标签的元数据,一个体系完整的画像设计范围广,一般是由很多团队共同构 ...

  4. 数据库设计--大宽表

    宽表的概念 基本概念 宽表从字面意义上讲就是字段比较多的数据库表.通常是指业务主题相关的指标.维度.属性关联在一起的一张数据库表. 由于把不同的内容都放在同一张表存储,宽表已经不符合三范式的模型设计规 ...

  5. Flink cdc +doris生产遇到的问题汇总-持续更新

    问题: 我有个表主键是字符串类型 然后cdc去读取的时候 自己split了很久 checkpoint一直显示执行中,我看日志打印是info : checkpoint一直卡在那里 程序一直等待中: 原因 ...

  6. 37手游云平台基于Flink+Hologres大数据建设实践

    本文整理自37手游大数据平台资深开发工程师史飞翔在实时数仓Workshop · 广州站的演讲.主要内容包括: 37云平台大数据建设背景 37云平台大数据建设方案 应用实践 未来规划 作者:史飞翔 37 ...

  7. Flink CDC + Hudi 海量数据入湖在顺丰的实践

    摘要:本文整理自顺丰大数据研发工程师覃立辉在 5月 21 日 Flink CDC Meetup 的演讲.主要内容包括: 顺丰数据集成背景 Flink CDC 实践问题与优化 未来规划 Tips:点击「 ...

  8. 【数仓建模】传统建模与宽表建模有何差异?基于宽表建模实践

    [数仓建模]传统建模与宽表建模有何差异?基于宽表建模实践 一.业务背景 1.1 数据建模现状: 1.2 当前业务特性与趋势 二.面临的问题 2.1 在数据驱动业务越来越重要的大趋势下,面临的问题 2. ...

  9. Flink 在顺丰的应用实践

    简介: 顺丰基于 Flink 建设实时数仓的思路,引入 Hudi On Flink 加速数仓宽表,以及实时数仓平台化建设的实践. 本⽂由社区志愿者苗文婷整理,内容源⾃顺丰科技大数据平台研发工程师龙逸尘 ...

最新文章

  1. ios架构篇-2 国际化多语言
  2. 我的linux Mint之路(三)
  3. .NET Compact Framework下SQL CE的使用
  4. Node.js 基金会和 JS 基金会准备合并,你怎么看?
  5. Java消息队列总结只需一篇解决ActiveMQ、RabbitMQ、ZeroMQ、Kafka
  6. C#和C++结构体Socket通信
  7. 一个大胖鲸-Docker(1)
  8. Linux workqueue疑问【转】
  9. win10键盘全部没反应_Win10的键盘失灵解决办法
  10. u-boot编译连接分析
  11. 日志对于运维的重要性
  12. 超级计算机与人工智能:大国超算,无人领航
  13. VMware ESXi 高危漏洞的补丁被指不完整
  14. 使用root安装nginx后使用非root运行方法
  15. C# int转string 每三位加一个逗号
  16. 你为什么当不了高管?几张图看懂高级经理人与普通管理者的区别
  17. Linux下sdio设备扫描过程,[mmc]Linux下MMC/SD/SDIO的识别与操作
  18. java .jar怎么打开_详解jar文件怎么打开
  19. webrtc QOS方法四(Sender Side BWE)
  20. 一起学爬虫(Python) — 21 蝉妈妈,嘿嘿

热门文章

  1. java计算机毕业设计高校失物招领管理平台源码+数据库+系统+lw文档+mybatis+运行部署
  2. Prometheus 中 histogram_quantile 函数相关的若干问题
  3. 1. Python入门
  4. 在阿里云备案网站域名可以使用腾讯云服务器吗?恐怕不
  5. 服务状态巡检命令指引
  6. 饿了么简单版管理后台系统-eladmin-web
  7. ceph存储 ceph集群ntp校时详细配置说明
  8. 总结H5+CSS3笔记
  9. vue项目全局配置微信分享_Vue项目history模式下微信分享总结-个人文章-SegmentFault思否...
  10. “十四五”城市交通基础设施发展方向及重点分析