点击上方蓝色字体,选择“设为星标

回复”资源“获取更多资源

数据湖是一种不断演进中、可扩展的大数据存储、处理、分析的基础设施;以数据为导向,实现任意来源、任意速度、任意规模、任意类型数据的全量获取、全量存储、多模式处理与全生命周期管理;并通过与各类外部异构数据源的交互集成,支持各类企业级应用。

目前在生产上可以用的经验不多,笔者个人在调研技术方案时参考了目前市面上公开的众多资料,供团队在数据架构设计和选型上进行参考。

华为生产场景数据湖平台建设实践

该平台围绕数据分如下三大逻辑模块:

典型数据应用场景按应用场景,对数据流程、处理平台进行的标注:

  • (绿色)结构化数据通过批处理、虚拟镜像到Hive数据,再通过Kylin预处理将数据储存在Cube中,封装成RESTAPI服务,提供高并发亚秒级查询服务,监测物料质量情况;

  • (红色)IoT数据,通过sensor采集上报到MQS,走storm实时分拣到HBase,通过算法模型加工后进行ICT物料预警监测;

  • (黄色)条码数据通过ETLloader到IQ列式数据湖,经过清洗加工后,提供千亿规模条码扫描操作。

非结构化质检图片数据:

通过web前台、数据API服务,进行图片数据的上传及查询,图片需要有唯一ID作为标示,确保可检索。海量图片数据以ID为rowkey,储存于Hbase平台,提供快速储存及查询能力。数据资产上有以下方面的构建:

  • 统一索引描述非结构数据,方便数据检索分析。

  • 增加维护及更新时间作为对象描述字段(图片类型、像素大小、尺寸规格)。非对象方式及数字化属性编目(全文文本、图像、声音、影视、超媒体等信息),自定义元数据。

  • 不同类型的数据可以形成了关联并处理非结构化数据。

实时金融数据湖的应用

在功能上,包括数据源、统一的数据接入、数据存储、数据开发、数据服务和数据应用。

  • 第一,数据源。不仅仅支持结构化数据,也支持半结构化数据和非结构化数据。

  • 第二,统一数据接入。数据通过统一数据接入平台,按数据的不同类型进行智能的数据接入。

  • 第三,数据存储。包括数据仓库和数据湖,实现冷热温智能数据分布。

  • 第四,数据开发。包括任务开发,任务调度,监控运维,可视化编程。

  • 第五,数据服务。包括交互式查询,数据 API,SQL 质量评估,元数据管理,血缘管理。

  • 第六,数据应用。包括数字化营销,数字化风控,数据化运营,客户画像。

在逻辑上,实时金融数据湖的逻辑架构主要有 4 层,包括存储层、计算层、服务层和产品层。

  • 在存储层,有 MPP 数据仓库和基于 OSS/HDFS 的数据湖,可以实现智能存储管理。

  • 在计算层,实现统一的元数据服务。

  • 在服务层,有联邦数据计算和数据服务 API 两种方式。其中,联邦数据计算服务是一个联邦查询引擎,可以实现数据跨库查询,它依赖的就是统一元数据服务,查询的是数据仓库和数据湖中的数据。

  • 在产品层,提供智能服务:包 RPA、证照识别、语言分析、客户画像、智能推荐。商业分析服务:包括自助分析、客户洞察、可视化。数据开发服务:包括数据开发平台,自动化治理。

整个实时场景架构:

数据源被实时接入到 Kafka 之后,Flink 可以实时处理 Kafka 的数据,并将处理的结果写入到数据湖中。数据湖整体基于开源方案搭建,数据的存储是用的 HDFS 和 S3,表格式用的是 Iceberg。Flink 读取完 Kafka 的数据之后进行实时处理,这时候可以把处理的中间结果写入到数据湖中,然后再进行逐步处理,最终得到业务想要的结果。处理的结果可以通过查询引擎对接应用,包括 Flink、Spark、Presto 等。

Soul的Delta Lake数据湖应用实践

数据由各端埋点上报至Kafka,通过Spark任务分钟级以Delta的形式写入HDFS,然后在Hive中自动化创建Delta表的映射表,即可通过Hive MR、Tez、Presto等查询引擎直接进行数据查询及分析。

我们基于Spark,封装了通用化ETL工具,实现了配置化接入,用户无需写代码即可实现源数据到Hive的整体流程接入。并且,为了更加适配业务场景,我们在封装层实现了多种实用功能:

  • 实现了类似Iceberg的hidden partition功能,用户可选择某些列做适当变化形成一个新的列,此列可作为分区列,也可作为新增列,使用SparkSql操作。如:有日期列date,那么可以通过 'substr(date,1,4) as year' 生成新列,并可以作为分区。

  • 为避免脏数据导致分区出错,实现了对动态分区的正则检测功能,比如:Hive中不支持中文分区,用户可以对动态分区加上'\w+'的正则检测,分区字段不符合的脏数据则会被过滤。

  • 实现自定义事件时间字段功能,用户可选数据中的任意时间字段作为事件时间落入对应分区,避免数据漂移问题。

  • 嵌套Json自定义层数解析,我们的日志数据大都为Json格式,其中难免有很多嵌套Json,此功能支持用户选择对嵌套Json的解析层数,嵌套字段也会被以单列的形式落入表中。

  • 实现SQL化自定义配置动态分区的功能,解决埋点数据倾斜导致的实时任务性能问题,优化资源使用,此场景后面会详细介绍。

基于Flink和Druid的实时多维分析系统在蔚来汽车的应用

实时方案之数据湖探究调研笔记

生产上的坑才是真的坑 | 盘一盘Flink那些经典线上问题

欢迎点赞+收藏+转发朋友圈素质三连

文章不错?点个【在看】吧!

数据湖在大数据典型场景下应用调研个人笔记相关推荐

  1. 数据湖在大数据场景下应用和实施方案调研笔记(增强版)

    点击上方蓝色字体,选择"设为星标" 回复"面试"获取更多惊喜 在读本文前你应该看过这些: <我看好数据湖的未来,但不看好数据湖的现在> <数据 ...

  2. 数据湖,大数据的下一个变革!

    作者 | Tina 采访嘉宾 | 堵俊平 AI 前线导读:让数据产生价值才叫成功.早期有不少的公司引入了 Hadoop,将企业的各种结构化非结构化数据加载至 Hadoop 环境当中,想让自己的数据发挥 ...

  3. 企业数据湖与大数据 Lambda 架构

    目录 1.Lambda架构背景介绍 2.大数据系统的关键特性 3.数据系统的本质 3.1.数据的本质 3.1.1.数据的特性:When & What 3.1.2.数据的存储:Store Eve ...

  4. 数据平台、大数据平台、数据中台……傻傻分不清?这次终于有人讲明白了!

    来源 | 智领云科技 造概念,在IT行业可不是一件陌生的事儿,中文博大精深,新名词.新概念往往简单准确,既可以被大众接受,又可以被专家把玩,真正做到雅俗共赏.各有趣味.近年来,数据中台之火爆,什么数据 ...

  5. 数据平台、大数据平台、数据中台……还分的清不?

    造概念,在IT行业可不是一件陌生的事儿,中文博大精深,新名词.新概念往往简单准确,既可以被大众接受,又可以被专家把玩,真正做到雅俗共赏.各有趣味.近年来,数据中台之火爆,什么数据平台.数据中台.数据湖 ...

  6. 大数据平台搭建_一文读懂数据平台、大数据平台、数据中台

    作者 | June 来源 | 智领云科技(ID:LinkTimeCloud) 造概念,在 IT 行业可不是一件陌生的事儿,中文博大精深,新名词.新概念往往简单准确,既可以被大众接受,又可以被专家把玩, ...

  7. 一文读懂数据平台、大数据平台、数据中台

    作者 | June 来源 | 智领云科技(ID:LinkTimeCloud) 造概念,在 IT 行业可不是一件陌生的事儿,中文博大精深,新名词.新概念往往简单准确,既可以被大众接受,又可以被专家把玩, ...

  8. 云原生数据湖解决方案打破数据孤岛,大数据驱动互娱行业发展

    简介: 数据湖是以集中.统一方式存储各种类型数据,数据湖可以与多种计算引擎直接对接,我们使用OSS作为数据湖底座,数据统一存储在OSS中,有效消除了数据孤岛现象,多种计算与处理分析引擎能够直接对存储在 ...

  9. 大数据概论、大数据概念、大数据特点(4V)、Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、大数据应用场景、大数据发展前景、大数据部门间业务流程分析

    文章目录 1.大数据概念 2.大数据特点(4V) 2.1Volume(大量) 2.2Velocity(高速) 2.3Variety(多样) 2.4Value(低价值密度) 3.大数据应用场景 4.大数 ...

最新文章

  1. Ubuntu18.04 JDK8
  2. (d2l-ai/d2l-zh)《动手学深度学习》pytorch 笔记(2)前言(介绍各种机器学习问题)以及数据操作预备知识Ⅰ
  3. 自学Springboot(一)
  4. 深入分析 Javascript 单线程
  5. 程序员删数据库事件引发的个人思考
  6. (干货满满!)session和cookie作用原理,区别(史上最详细)
  7. 和vs版本关系_教学鉴定贴:如何判断是不是VS厂的沛纳海手表
  8. Windows Server 2012活动目录基础配置与应用(新手教程)之9---了解组策略
  9. android获取工程中所有类名,android 获取手机的所有程序和widget的包名和启动类名...
  10. mysql的三个故障解决小结
  11. java switch中标签重复_java程序 怎样把id相同的记录挑出来,分别存到不同的文件中,除了switch case,数据量很大,id种类很多。...
  12. ArcGIS10.5资源分享
  13. Qt 递归安装父控件的所有子孙控件事件过滤器 遍历安装事件过滤器
  14. SANGFOR SCSA——网络基础(下)
  15. UCDOS中的点阵字库HZK12,HZK16,HZK24,ASC12,ASC16(转)
  16. 使用moviepy为视频添加字幕
  17. 大陆期货11月3日钢材日评
  18. python 灰度图像素灰度值求和_图像灰度值 灰度值与像素值的关系
  19. 计算机视觉 - 图像编码
  20. c语言实参和形参占用存储单元_在C语言中,以下说法正确的是()。 A.实参和与其对应的形参分别占用独立的存储单元。 B.实参和与...

热门文章

  1. gamma的传说(转自KlayGE Engine)
  2. 基于天牛须(BAS)与NSGA-Ⅱ混合算法的交直流混合微电网多场景多目标优化调度(Matlab代码实现)
  3. 关于LinearLayout属性android:layout_marginRight的错误
  4. DSP48E1(2)加法运算实例
  5. Day 2 A - The Balance of the World
  6. 清华本科生最高荣誉:图说十年特奖得主(附历年名单)
  7. CPU:Cache: locality of reference, spacial,temporal,cache line
  8. 项目一:建设工程监管信息系统报建申请模块
  9. 计算机考试反思2000字,期中考试后的反思,400字左右,谢谢,期中考试后的反思(2000字)谢谢啦!...
  10. 【不忘初心】Windows11 22000.776 X64 [纯净精简版][2.6G](2022.6.23)