Apache hudi 第一代流式数据湖平台
本次课程分为:Hudi基础入门、Hudi集成进阶篇和Hudi实战案例篇

hudi基础入门篇主要讲解hudi框架概述、快速使用hudi及基础概念
学习收获:了解什么是数据湖、为什么使用hudi,及hudi的如何管理数据和基本概念理解。

hudi应用进阶篇:主要讲解hudi与spark整合与flink整合,数据流式存储分析。
学习收获:如何在企业中使用hudi,尤其与spark和flink集成,无论是流式存储还是离线分析计算。

hudi实战案例:主要讲解实际案例。
学习收获:如何在实际业务中使用hudi,与spark 和flink的集成

数据仓库:
数据仓库(英语:data warehouse,简称数据数仓,dw),是一个用于存储、分析、报告的数据系统.
企业级应用分析,应用系统和分析决策系统。
数据仓库的目的是构建面向分析的集成化数据环境,分析结果为企业提供决策分析(Decision support)

数据仓库的特点是本身不产生数据、也不最终消费数据。
每个企业根据自已的业务需求可以分成不同的层次,但是最基础的分层思想,理论上分为三层:操作型数据层(ODS)、数据仓库层(DW)和数据应用层(DA)。

数据湖
数据湖(Data Lake)和数据库、数据仓库一样,都是数据存储的设计模式,现在企业的数据仓库都会通过分层的方式将数据存储的文件夹、文件中。
数据湖是一个集中式数据存储库,用来存储大量的原始数据,使用平台架构来存储数据。

数据湖 
定义:一个以原始格式(通常是对象块和文件)存储数据的系统或存储库,通常是所有企业数据的单一存储。
数据湖可以包括来自关系的结构化数据(行和列)、半结构化数据(CSV、日志、XML、JSON)、非结构化数据(电子邮件、文档、pdf)和二进制数据(图像、音频、视频)。
数据湖越来越多的用于描述任何的大型数据湖,数据都是以原始数据方式存储,知道需要存储应用数据的时候才会开始分析数据需求和应用架构。

数据湖中数据,用于报告、可视化、高级分析和机器学习等任务。

数据仓库Data warehouse和数据湖dataLake区别。

数据仓库VS数据湖
数据仓库是一个优化的数据库,用于分析来自事务和业务应用程序的关系数据。
数据存储来自业务线应用程序的关系数据,以及来自移动应用程序,IOT设备和社交媒体的非关系数据。

数据仓库:
数据:来自事务系统、运营数据和业务线应用程序的关系数据。
schema:设计在数据仓库实施之前(写入型schema)
性价比:更快查询结果会带来较高存储成本
数据质量:可作为重要事实依据的高度监管数据。
用户:业务分析师
分析:批处理报告、BI和可视化

数据湖:
数据:来自IOT设备、网站、移动应用程序,社交媒体和企业应用程序的非关系和关系数据。
schema:写入在分析时(读取型schema)
性价比:更快查询结果只需较低存储成本。
数据质量:任何可以或无法监管的数据(例如原始数据)
用户:数据科学家、数据开发人员和业务分析师(使用监管数据)
分析:机器学习、预测分析、数据发现和分析。

数据仓库:使用良好范式规范数据、无法生成数据所需的洞察。
数据湖:新的原始数据存储和处理范式、缺乏结构和治理,会迅速沦为“数据沼泽”。

仓湖一体datalake house 
data LakeHouse(湖仓一体)是新出现的一种数据架构,它同时吸收了数据仓库和数据湖的优势,数据分析师和数据科学家可以在同一个数据存储中对数据进行操作,同时它为公司进行治理带来更多的便利性。

LakeHouse使用新的系统设计:直接在用于数据湖的低成本存储上实现与数据仓库类似的数据结构和数据管理功能。

湖仓一体 Lake House:是一种结合数据湖和数据仓库优势的新范式,从根本上简化企业数据基础架构,并且有望在机器学习已渗透到每个行业的时代加带创新。

数据湖技术本质上,实现全量数据单一存储的高结架构,可以存储任意规模、任意类型、需求各种速度的数据。需任务处理、消除数据采集和存储复杂性,加速应用数据。

数据湖架构:
目前市面上流行三大开源数据湖方案分别为:dalta Lake、Apache Iceberg和apache hudi. 华为的数据湖方案
delta Lake: DataBricks公司推出的一种数据湖方案、网址:https://delta.io/
apache iceberg:以类似于sql的形式高性能的处理大型的开放代表,网址: https://iceberg.apache.org 
apache hudi:hadoop upserts and incrementals,管理大型分析数据集在hdfs上的存储,网址: https://hudi.apahce.org

总述:
hudi提供hudi表的概念,这些表支持crud操作,可以利用现有的大数据集群比如hdfs做数据文件存储,然而后使用sparksql和hive等分析引擎进行
数据分析查询。

hudi表主要有三个组件:
    1、有序的时间轴元数据,类似于数据库事务日志
    2、分层布局的数据文件,实际写入表中的数据
    3、索引(多种实现方式)映射包含指定的记录的数据集。
    
hudi核心:在所有的表中维护一个包含在不同的即时时间对数据集操作(比如新增、修改或删除)的时间轴。

Apache hudi相关推荐

  1. Apache Hudi的写时复制和读时合并

    Apache Hudi http://hudi.apache.org/ http://hudi.apache.org/docs/quick-start-guide.html Hudi是什么 Hudi将 ...

  2. 一文彻底掌握Apache Hudi异步Clustering部署

    1. 摘要 在之前的一篇博客中,我们介绍了Clustering(聚簇)的表服务来重新组织数据来提供更好的查询性能,而不用降低摄取速度,并且我们已经知道如何部署同步Clustering,本篇博客中,我们 ...

  3. 技术干货|基于Apache Hudi 的CDC数据入湖

    简介:阿里云技术专家李少锋(风泽)在Apache Hudi 与 Apache Pulsar 联合 Meetup 杭州站上的演讲整理稿件,本议题将介绍典型 CDC 入湖场景,以及如何使用 Pulsar/ ...

  4. 今日直播 | Apache Hudi x Apache Pulsar Meetup线上专场如期而至 大咖齐聚

    简介:Apache Hudi 与 Apache Pulsar 联合 Meetup 线上专场将于2021 年 8 月 30 日(今天) 14:00开启直播,你准备好了吗? Apache Hudi 与 A ...

  5. Apache Hudi x Pulsar Meetup杭州站火爆来袭,实践干货就等你来!

    简介:Apache Hudi 与 Apache Pulsar 联合 Meetup 杭州站来啦!将于 2021 年 8 月 28 日(周六) 13:30 ,在杭州召开,你准备好了吗?本次 Meetup ...

  6. bigint hive java类型_详解Apache Hudi如何配置各种类型分区

    1. 引入 Apache Hudi支持多种分区方式数据集,如多级分区.单分区.时间日期分区.无分区数据集等,用户可根据实际需求选择合适的分区方式,下面来详细了解Hudi如何配置何种类型分区. 2. 分 ...

  7. 基于 Apache Hudi 构建流批一体系统实践

    1. 前言 当前公司的大数据实时链路如下图,数据源是MySQL数据库,然后通过Binlog Query的方式消费或者直接客户端采集到Kafka,最终通过基于Spark/Flink实现的批流一体计算引擎 ...

  8. 技术干货|基于Apache Hudi 的CDC数据入湖「内附干货PPT下载渠道」

    简介: 阿里云技术专家李少锋(风泽)在Apache Hudi 与 Apache Pulsar 联合 Meetup 杭州站上的演讲整理稿件,本议题将介绍典型 CDC 入湖场景,以及如何使用 Pulsar ...

  9. Apache Hudi 是Uber 大数据存储系统

    Apache 软件基金会( Apache Software Foundation,ASF)于官网发文, Apache Hudi 晋升为 Apache 顶级项目(TLP). Apache Hudi(Ha ...

  10. Apache Hudi入门应用

    是什么 作用 因为hive的两个缺点 1 hive不支持更新单条记录 2 hive如果只希望对增量数据进行分析比较麻烦 Hudi改善了这2点,即支持record级别的更新,以及仅对增量数据进行查询. ...

最新文章

  1. 1021.删除最外层的括号
  2. 蓟门边studio-码农创业路的起点
  3. springboot(七) 配置嵌入式Servlet容器
  4. 基于Nginx的媒体服务器技术
  5. FTP和TFTP的区别与介绍
  6. java读取各类型的文件
  7. [转载] python处理数据列_Python中基于跨列的数据处理
  8. 互联网,我的二十年体验
  9. 获取请求真实IP地址的工具类
  10. 散射理论对微波遥感的重要性
  11. PPT宏编程——ChineseCounter
  12. 德阳计算机办公培训,德阳2017计算机办公软件培训
  13. 公开我的开源项目newland.js
  14. python差异性分析_差异性分析
  15. CATIA二次开发——元素隐藏
  16. class uesrfun.php,帝国cms教程:列表页面批量添加Tags -电脑资料
  17. p图软件pⅰc_‎修图神器 - 修改照片,美化图片p图工具 trên App Store
  18. 收音机c语言程序,基于51单片机的数字FM调频收音机的设计(附接线图,主程序代码)...
  19. ck属于哪个集团_CK有几个品牌缩写?中国CK有几个品牌缩写?CK是什么品牌?CK 这个牌子的全名是什么啊?...
  20. 2.4GHz射频前端集成芯片AT2401C介绍和引脚图片

热门文章

  1. 微信小程序毕业设计 基于微信技师预约小程序系统开题报告
  2. 【转载】如何正确安装MSDN
  3. 微信支付不再免费,浅谈它的四年发展史
  4. Xftp下载及基本使用
  5. eCharts解决上下滑动冲突
  6. Ubuntu常用解压缩命令
  7. VBA操作Excel之设置单元格属性
  8. 蓝桥杯2014省赛——李白打酒(Java)
  9. Java反射机制与注解
  10. 使用开源权限控制组件search-guard来操作Elasticsearch