阿里云大数据ACP认证学习笔记之——————Dataworks
基本概念
产品服务
- 数据集成
- 数据开发
- 数据地图
- 数据质量
- 数据服务
计算和存储引擎服务
- 离线计算MaxCompute
- 开源大数据引擎E-MapReduce
- 实时计算(基于Flink)
- 机器学习PAI
- 图计算服务Graph Compute
- 交互式分析服务
- 工作空间:DataWorks管理任务、成员,分配角色和权限的基本单元。
- 解决方案:可以包括多个业务流程,以复用相同的业务流程。
- 组件:组件是带有多个输入参数和输出参数的SQL代码过程模板。
- 资源组:资源组是指数据集成的批数据同步任务运行所在的计算资源。通常资源组以机器的形式展现,即CPU、内存和带宽的大小。
- 数据集成的资源组包括以下类型:
- 公共资源组
- 独享数据集成资源组
- 自定义资源组
- 任务:任务是对数据执行的操作的定义。主要分为:
- Node Task:节点任务
- Flow Task:工作流任务
- innerNode:内部节点
- 实例:实例是某个任务在某时某刻执行的一个快照。
- 工作空间成员包括项目所有者、项目管理员、开发、运维、部署、访客和安全管理员等角色,工作空间创建者默认为管理员角色。
- 数据开发流程
- 数据产生:业务系统每天会产生大量结构化的数据,存储在业务系统所对应的数据库中,包括MySQL、Oracle和RDS等类型。
- 数据收集与存储:您需要同步不同业务系统的数据至MaxCompute中,方可通过MaxCompute的海量数据存储与处理能力分析已有的数据。
- 数据分析与处理:完成数据的同步后,可以对MaxCompute中的数据进行加工(MaxCompute SQL、MaxCompute MR)、分析与挖掘(数据分析、数据挖掘)等处理,从而发现其价值。
- 数据提取:分析与处理后的结果数据,需要同步导出至业务系统,以供业务人员使用其分析的价值。
- 数据展现与分享:数据提取成功后,可以通过报表、地理信息系统等多种展现方式,展示与分享大数据分析、处理后的成果。
数据集成
- 支持且仅支持结构化(例如RDS、DRDS等)、半结构化、无结构化(OSS、TXT等)的数据的同步。
- 离线(批量)数据同步支持的数据源
- 关系型数据库
- 大数据存储
- 半结构化存储
- NoSQL
- 消息队列
- 图计算引擎
- 实时数据同步
- 输入:MySQL、Oracle、Kafka、Datahub、Loghub和PolarDB。
- 输出:MaxCompute、Hologres、Kafka和Datahub。
- 数据转换:数据过滤、Groovy和字符串替换。
- 网络类型
- 经典网络:统一部署在阿里云的公共基础网络内,网络的规划和管理由阿里云负责。
- 专有网络:基于阿里云构建出一个隔离的网络环境,您可以完全掌控自己的虚拟网络。
- 本地IDC网络:您自身构建机房的网络环境,与阿里云网络隔离。
- 数据同步速度的影响因素
- 来源端数据源
- 数据库的性能:CPU、内存、SSD硬盘、网络和硬盘等。
- 并发数:数据源并发数越高,数据库负载越高。
- 网络:网络带宽、网速。
- 数据集成的同步任务配置
- 传输速度:是否设置任务同步速度上限值。
- 并发:从源并行读取或并行写入数据存储端的最大线程数。
- Bytes的设置:单个线程的Bytes=1048576,在网速比较敏感时,会出现超时现象,此时建议将Bytes设置的较小。
- 等待资源
- 查询语句是否建立索引
- 目的端数据源
- 性能:CPU、内存、SSD 硬盘、网络和硬盘。
- 负载:目的数据库负载过高会影响同步任务数据写入效率。
- 网络:网络的带宽(吞吐量)、网速。
数据开发
- 业务流程:业务流程由以下各模块的节点组成
- 数据集成:数据集成任务包括离线同步节点和实时同步节点。
- MaxCompute:MaxCompute计算引擎包括ODPS SQL、SQL组件节点、ODPS Spark、PyODPS、ODPS Script和ODPS MR等数据开发节点。并可以查看和新建表、资源及函数:
- 数据开发:MaxCompute数据开发节点包括ODPS SQL、SQL组件节点、ODPS Spark、PyODPS、ODPS Script和ODPS M;
- 表:新建表;
- 资源:创建资源;
- 函数:新建函数。
- AnalyticDB for PostgreSQL:可以新建AnalyticDB for PostgreSQL节点和AnalyticDB for PostgreSQL表。
- EMR:EMR计算引擎包括EMR HIVE、EMR MR、EMR SPARK和EMR SPARK等数据开发节点,并可以查看和新建EMR资源。
- 算法:机器学习节点。
- 通用:OSS对象检查、for-each、do-while、归并节点、分支节点、赋值节点、Shell、虚拟节点和跨租户节点。
- 自定义: Hologres开发、Data Lake Analytics和AnalyticDB for MySQL。
- 节点组:可以服用的一系列节点的组合。
数据地图
- 数据地图是在元数据基础上提供的企业数据资产管理模块,涵盖全局数据检索、元数据详情查看、数据预览、数据血缘和数据类目管理等功能。
数据质量
- 数据质量是支持多种异构数据源的质量校验、通知及管理服务的一站式平台。
- 数据质量提供全链路的数据质量方案,包括数据探查、对比、质量监控、SQL扫描和智能报警等功能。
- 数据质量以数据集(DataSet)为监控对象。目前,数据质量支持EMR(E-MapReduce)、Hologres、AnalyticDB for PostgreSQL、MaxCompute数据表和DataHub实时数据流的监控。
- 数据质量监控的流程
- 执行任务
- 触发规则
- 执行规则
- 报警/阻塞
数据服务
- 生成API:可根据向导模式或脚本模式将关系型数据库和NoSQL数据库的表生成API。
- 注册API:注册API。
- API网关:API网关(API Gateway)提供API托管服务,涵盖API发布、管理、运维、售卖的全生命周期管理。
- API市场:数据服务生成和注册的API发布至API网关后,可以一键上架至阿里云API市场售卖。
DataHub
- DataHub是阿里云提供的流式数据处理平台,提供对流式数据的发布、订阅和分发功能。
- StreamCompute是阿里云提供的流计算引擎,提供使用类SQL的语言来进行流式计算。
基本概念
- Project:项目(Project)是DataHub数据的基本组织单元,下面包含多个Topic。
- Topic:Topic是 DataHub 订阅和发布的最小单位,用户可以用Topic来表示一类或者一种流数据。
- Topic Lifecycle:表示一个Topic中写入数据在系统中可以保存的最长时间,以天为单位,最小值为1,最大值为7。
- Shard:Shard表示对一个Topic进行数据传输的并发通道。
- Shard Merge:Shard合并,可以把相邻的Key Range连接的Shard merge成一个Shard。
- Shard Split:Shard分裂,可以把一个Shard分裂成Shard Key Range相连接的两个Shard。
- Record:用户数据和 DataHub 端交互的基本单位。
- RecordType:Topic的数据类型,目前支持Tuple与Blob两种类型。
- 应用场景
- 实时数据通道:通过数据总线,您可以实时接入APP、WEB、IoT和数据库等产生的异构数据,统一管理,并投递到下游的分析、归档等系统。
- 实时数据清洗和分析:通过数据总线和实时计算,您可以把多种数据源的异构数据实时清洗成统一的结构化数据。
- 实时数据仓库:通过数据总线搭建原始数据层,实时明细层和实时汇总层,打造实时数据仓库。
- 当Shard进行Merge/Split后会被置为CLOSED状态,该状态可以继续消费读取数据,但是不可写入,也不可再次进行Merge/Split操作,当到达Topic的lifecycle后该Shard会被回收。
- Topic在进行Merge/Split后新的Shard需要等待变为ACTIVE状态后方可正常使用,通常不会超过5秒。
- 数据同步功能支持的阿里云产品
- MaxCompute
- ADS
- RDS
- OTS
- OSS
- ElasticSearch
- Hologres
- 函数计算服务
Quick BI
- 基本对象
- 数据源
- 数据集
- 电子表格
- 仪表板
- 数据门户
- 核心流程
- 获取数据
- 从云数据库添加数据源
- 添加来自自建数据库的数据源
- 上传本地文件
- 创建数据集
- 可以将各种不同的数据源中的表创建为数据集;
- 在数据集列表中,可以对已添加的数据集做编辑、移动和删除操作。
- 仪表板:不仅可以将数据以可视化的方式呈现,还支持通过各种数据筛选和查询,使用各种数据展现方式,突出数据中的关键字段。
- 电子表格:电子表格适用于群空间下。电子表格是数据集经过分析,加工后的结果。您在选中一个数据集后可以对数据的内容进行分析。
- 数据门户:可以使用数据门户功能构建例如经营分析系统的应用。数据门户不仅可以引用Quick BI中的数据结果,同时也支持外挂链接。
- 权限管理
- 数据对象管理:数据对象支持分享和公开
- 被分享的作品可以被其他用户以只读的方式访问,但不允许修改、删除和另存;
- 互联网上所有知道链接的人都可以访问被公开的作品。
- 行级权限管理
- 并不是数据集中的所有字段都需要进行行级权限控制;
- 目前,成员列表中仅能展示500个成员;
- 在列表选择中,有一个特殊的选项,所有。如果将这个选项赋予组织中的某位成员,那么该成员在该字段上将不再受行级权限的限制。
机器学习
- 基本概念
- 机器学习包括传统机器学习和深度学习。传统机器学习分为以下几类:
- 监督学习:样本都有对应的期望值,通过搭建模型,实现输入特征向量到目标值的映射;
- 半监督学习:训练数据部分有标识,部分没标识,模型先学习模型的内在结构,然后进行预测;
- 无监督学习:所有样本没有目标值,期望从数据本身发现一些潜在规律;
- 增强学习:系统和外界环境不断交互,根据外界反馈决定自身行为,达到长期目标最优化。
- 机器学习PAI底层支持多种计算框架:
- 流式计算框架Flink
- 深度学习框架TensorFlow
- 千亿特征样本的大规模并行计算框架Parameter Server
- Spark、PySpark、MapReduce等业内主流开源框架
- PAI提供的服务:
- 可视化建模和分布式训练PAI-Studio
- Notebook交互式AI研发PAI-DSW(Data Science Workshop)
- 自动化建模PAI-AutoLearning
- 在线预测PAI-EAS(Elastic Algorithm Service)
- PAI的业务架构
- 基础设施层:包括CPU、GPU、FPGA及NPU。
- 计算引擎和容器服务层
- 计算框架层
- 按照机器学习全流程,PAI分别提供了数据准备、模型开发和训练及模型部署阶段的产品
- 业务层
阿里云大数据ACP认证学习笔记之——————Dataworks相关推荐
- 【赵渝强老师】阿里云大数据ACP认证之阿里大数据产品体系
阿里大数据产品体系是基于阿里云飞天平台上的数据处理服务.主要分为阿里云大数据基础产品和阿里云数加平台,其产品架构图如下所示: 一.阿里云大数据基础产品 1.云数据库--RDS(ApsaraDB for ...
- 阿里云大数据专业认证(ACP),值得报名吗?
如果你想从事数据领域,那么阿里云大数据ACP证书就很值得考一个! 先来了解一下阿里云认证: 阿里云认证是基于核心技术及岗位的权威认证, 阿里云针对不同产品类别.用户成长阶段.生态岗位,精心打造不同的认 ...
- 有人考过阿里云大数据助理工程师认证(ACA)从而能分享心得攻略吗?
阿里云认证分为ACA.ACP.ACE三个级别,目前相对来说,ACP级别的考试人数最多,也相对来说,含金量还可以,ACA就比较建议大学生考了,含金量不是很高,难度也不高.可以试试直接考ACP.ACP认证 ...
- 阿里云大数据助理工程师认证考试考什么内容?
阿里云认证分为ACA.ACP.ACE三个级别,本文主要针对ACP认证.ACP认证目前按专业方向主要分四种:云计算(主要对应阿里云基础架构产品).大数据(主要对应阿里云大数据系列产品).云安全(主要对应 ...
- 阿里云大数据ACA认证考试总结
刚参加完阿里云大数据助理工程师认证(ACA)考试,趁还有点记忆,总结一下. 在官网上没有找到ACA的考试大纲和样题,遂看了ACP的,结果有点误导.ACP考试大纲说maxcompute占55%,data ...
- 阿里云ACA大数据助理工程师认证学习笔记和题
1 某大型企业计划使用MaxCompute对本公司的数据进行加工和分析,预计该项目会有上万个表.数干个本题分信任务,同时有近4人的团队负责该项目的建设和运维.从工程角度出发, ()可以大大减少项目管理 ...
- 阿里云大数据ACP(一)大数据开发平台 DataWorks
文章目录 一.DataWorks 简介 1.1 DataWorks 的功能概述 1.2 DataWorks 产品特点 1.3 DataWorks 产品优势 1.4 应用场景 (助力企业搭建大数据信息平 ...
- 【实验】阿里云大数据助理工程师认证(ACA)- 机器学习实现基本统计分析
实验概述 本实验在阿里云PAI机器学习平台上,对一组农业数据进行基本的统计分析,包括观察数据的分布情况,对农民的收入和其他变量的相关性进行分析,对不同区域的农民收入进行分组分析和对比分析,以探讨不同地 ...
- 【大数据】阿里云大数据专业认证考试
大数据: 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化的信息资 ...
最新文章
- 开启Windows8里面的Hyper-V虚拟机功能
- profiles 配置详解
- ThreadLocal可以解决并发问题吗
- mysql linux selected_MySQL的查询语句--SELECT
- Linux下画原理图和PCB
- java中塑形_Java学习5——接口和多态
- Spring AOP中的前置通知和后置通知详解
- 横向导出excel_万能转换:R图和统计表转成发表级的Word、PPT、Excel、HTML、Latex、矢量图等...
- [转载]C#异步调用四大方法详解
- 人工智能的变革趋势: 从弱人工智能到强人工智能,再到生物智能
- 如何设置内网和外网同时使用
- CentOS-8 dnf 前端工具学习笔记
- unity学习之遮挡剔除
- [POI2008]Mirror Trap
- 浙江独立学院计算机专业排名2015,2018中国独立学院排行榜发布,浙江这所独立学院独占鳌头!...
- 现有的CEP产品介绍
- 漫谈数据库领域职业定位与发展
- vscode快速设置console.log快捷键
- http post请求
- oem客户工程流程图_新产品OEM开发及生产流程图