阿里云云原生数据湖体系全解读——数据湖开发治理平台 DataWorks

数据湖的定义：wikipedia 中对于数据湖的定义是： “ A data lake is a system or repository of data stored in its natural/raw format, usually object blobs or files. A data

lake is usually a single store of all enterprise data including raw copies of source system data and transformed data used for tasks such as reporting, visualization, advanced analytics and machine learning.” 可见数据湖是一个通用的数据存储，通用到可以存储任意类型的数据。

数据湖要考虑的首要问题：
从定义看，一块 u 盘即符合数据湖的定义。 u 盘可以是数据湖， oss 可以是数湖，hdfs、盘古也可以是数据湖。它们均严格的符合数据湖的定义。作为企业的数据湖技术选型第一个需要考虑的问题就是：采用什么样的存储介质或存储系统作为自己的数据湖解决方案。众所周知，不同的存储介质或存储系统有不同的优势和劣势。比如：有的存储系统随机读取的响应时间更好、有的系统批量读取的吞吐量更好、有的系统存储成本更低、有的系统扩展性更好、有的系统结构化数据组织得更高效…相应的，这些提到的各个指标中有些恰恰是有些存储所不擅长的，如何享有所有存储系统的优势、规避所有存储系统的劣势变成了云上数据湖服务要考虑的首要问题。要解决这个矛盾的问题，在理论上是不可能一劳永逸的。聪明的做法是对上提供一个逻辑上的存储解决方案，然后让需要不同访问特点的数据灵活地在各种底层存储系统中迁移。通过便捷的数据迁移（、以及数据格式转化）的能力，来充分发挥出各个存储系统的优势。结论：成熟的数据湖一定是一个逻辑上的存储系统，它的底层是多个各种类型的存储系统所组成。

数据湖要解决的三大问题

元数据管理、数据集成、数据开发是数据湖需要解决的三大问题，阿里云的DataWorks 作为一个通用的大数据平台，除了很好的解决了数仓场景的各类问题，也同样解决了数据湖场景中的核心痛点。
元数据管理
用户的湖上数据需要有个统一集中的管理能力，这就成了数据湖的第一个核心能力。DataWorks 的数据治理能力便是用来解决数据湖中的各类存储系统的元数据管理的。目前它管理了云上 11 中数据源的元数据。涵盖 OSS、 EMR、 MaxCompute、 Hologres、mysql、 PostgreSQL、 SQL Server、 Oracle、 AnalyticDB for PostgreSQL、AnalyticDB for MySQL 2.0、 AnalyticDB for MySQL 3.0 等云上主要数据源类型的元数据管理。功能上涵盖元数据采集、存储检索、在线元数据服务、数据预览、分类打标、数据血缘、数据探查、影响分析、资源优化等能力。技术的宏观架构如图：

数据集成
数据湖中的数据管理起来之后，就会面临数据在各个存储系统中迁移和转化的能力。为此 DataWorks 的数据集成能力可以做到 40 种类常见数据源的导入导出及格式转化的能力，同时覆盖了离线和实时两大同步场景，以及可以解决对外对接时的复杂网络场景。

数据开发
解决了数据湖的存储管理和数据迁移问题后，接下来就是如何让数据湖中的数据更好的赋能业务。这就需要引入各类计算引擎，计算平台事业部拥有丰富的各类计算引擎，有开源体系的 spark、 presto、 hive、 flink，还有自研的 MaxCompute、 Hologres，这里的挑战在于如何方便的发挥各类引擎的长处，让湖中的数据能够被各类引擎访问和计算。为此DataWorks 提供了便捷的数据迁移方式（方便数据在各类引擎中流转穿梭）、提供一站式的数据开发环境，从即席查询到周期的 etl 开发， DataWorks 提供了各个计算引擎的统一计算任务的开发和运维能力。

阿里云云原生数据湖体系全解读——数据湖开发治理平台 DataWorks相关推荐

阿里云云原生数据湖体系全解读——数据湖云原生计算引擎
云原生背景介绍与思考图是基于 ECS 底座的 EMR 架构, 这是一套非常完整的开源大数据生态, 也是近 10 年来每个数字化企业必不可少的开源大数据解决方案. 主要分为以下几层: ECS 物理资源 ...
阿里云云原生数据湖体系全解读——数据湖存储JindoDistCp 数据导入
数据湖就像是一个" 大水池" , 是一种把各类异构数据进行集中存储的架构. 数据湖是一种存储架构, 在阿里云上可以利用 OSS 对象存储, 来当数据湖的地基. 企业基于阿里云服务, ...
阿里云云原生数据湖体系全解读——元原生数据湖体系
阿里云首次发布云原生数据湖体系,基于对象存储OSS.数据湖构建Data Lake Formation和E-MapReduce产品的强强组合,提供存储与计算分离架构下,涵盖湖存储.湖加速.湖管理和湖计算 ...
基于阿里云官网文档-大数据开发治理平台 DataWorks研读+数据质量扩展+相应的大数据组件知识扩展
网址:阿里DataWorkers网址:数据集成概述 - 大数据开发治理平台 DataWorks - 阿里云目录网址:阿里DataWorkers网址:数据集成概述 - 大数据开发治理平台 DataW ...
阿里云-数据仓库-全链路大数据开发治理平台-DataWorks的数字世界
一.前言上文我讲到阿里云-数据仓库-数据分析开发神器-ODPS ,今天我带领大家一起走进神器的成长环境及它的数据世界. 二. DataWorks是什么 DataWorks基于MaxCompute. ...
大数据开发治理平台 DataWorks
序言学习下阿里DataWorks的设计理念以及要做的事情cuiyaonan2000@163.com 参考文档: https://www.aliyun.com/product/bigdata/ide ...
阿里：DataWorks一站式大数据开发治理平台
官网: 大数据开发治理平台 DataWorks - 帮助中心 - 阿里云
到底什么是数据湖？全面解读数据湖的缘起、特征、技术、案例和趋势
正文开始本文有1.5万字,预计阅读30分钟,可以先收藏数据湖近几年迅速蹿红,今天笔者做一个综述,包括数据湖的缘起.数据湖的定义.数据湖的特征.数据湖的技术.数据湖的趋势和数据湖的案例六大部分,如果 ...
从数据中台到全链路数据生产力
作者:汪源,网易副总裁,网易杭州研究院执行院长,网易数帆总经理首发:冷技术热思考近两个月前的数字+大会上,我们向业界发布网易易数全链路数据生产力平台.有必要再阐释一下什么叫全链路数据生产力平台,它 ...

阿里云云原生数据湖体系全解读——数据湖开发治理平台 DataWorks

数据湖要解决的三大问题

阿里云云原生数据湖体系全解读——数据湖开发治理平台 DataWorks相关推荐

最新文章

热门文章