基本概念

  • 产品服务

    • 数据集成
    • 数据开发
    • 数据地图
    • 数据质量
    • 数据服务
  • 计算和存储引擎服务

    • 离线计算MaxCompute
    • 开源大数据引擎E-MapReduce
    • 实时计算(基于Flink)
    • 机器学习PAI
    • 图计算服务Graph Compute
    • 交互式分析服务
  • 工作空间:DataWorks管理任务、成员,分配角色和权限的基本单元。
  • 解决方案:可以包括多个业务流程,以复用相同的业务流程。
  • 组件:组件是带有多个输入参数和输出参数的SQL代码过程模板。
  • 资源组:资源组是指数据集成的批数据同步任务运行所在的计算资源。通常资源组以机器的形式展现,即CPU、内存和带宽的大小。
  • 数据集成的资源组包括以下类型
  1. 公共资源组
  2. 独享数据集成资源组
  3. 自定义资源组
  • 任务:任务是对数据执行的操作的定义。主要分为:
  1. Node Task:节点任务
  2. Flow Task:工作流任务
  3. innerNode:内部节点
  • 实例:实例是某个任务在某时某刻执行的一个快照。
  • 工作空间成员包括项目所有者、项目管理员、开发、运维、部署、访客和安全管理员等角色,工作空间创建者默认为管理员角色。
  • 数据开发流程
  1. 数据产生:业务系统每天会产生大量结构化的数据,存储在业务系统所对应的数据库中,包括MySQL、Oracle和RDS等类型。
  2. 数据收集与存储:您需要同步不同业务系统的数据至MaxCompute中,方可通过MaxCompute的海量数据存储与处理能力分析已有的数据。
  3. 数据分析与处理:完成数据的同步后,可以对MaxCompute中的数据进行加工(MaxCompute SQL、MaxCompute MR)、分析与挖掘(数据分析、数据挖掘)等处理,从而发现其价值。
  4. 数据提取:分析与处理后的结果数据,需要同步导出至业务系统,以供业务人员使用其分析的价值。
  5. 数据展现与分享:数据提取成功后,可以通过报表、地理信息系统等多种展现方式,展示与分享大数据分析、处理后的成果。

数据集成

  • 支持且仅支持结构化(例如RDS、DRDS等)、半结构化、无结构化(OSS、TXT等)的数据的同步。
  • 离线(批量)数据同步支持的数据源
  1. 关系型数据库
  2. 大数据存储
  3. 半结构化存储
  4. NoSQL
  5. 消息队列
  6. 图计算引擎
  • 实时数据同步
  1. 输入:MySQL、Oracle、Kafka、Datahub、Loghub和PolarDB。
  2. 输出:MaxCompute、Hologres、Kafka和Datahub。
  3. 数据转换:数据过滤、Groovy和字符串替换。
  • 网络类型
  1. 经典网络:统一部署在阿里云的公共基础网络内,网络的规划和管理由阿里云负责。
  2. 专有网络:基于阿里云构建出一个隔离的网络环境,您可以完全掌控自己的虚拟网络。
  3. 本地IDC网络:您自身构建机房的网络环境,与阿里云网络隔离。
  • 数据同步速度的影响因素

    • 来源端数据源
  1. 数据库的性能:CPU、内存、SSD硬盘、网络和硬盘等。
  2. 并发数:数据源并发数越高,数据库负载越高。
  3. 网络:网络带宽、网速。
    • 数据集成的同步任务配置
  1. 传输速度:是否设置任务同步速度上限值。
  2. 并发:从源并行读取或并行写入数据存储端的最大线程数。
  3. Bytes的设置:单个线程的Bytes=1048576,在网速比较敏感时,会出现超时现象,此时建议将Bytes设置的较小。
  4. 等待资源
  5. 查询语句是否建立索引
    • 目的端数据源
  1. 性能:CPU、内存、SSD 硬盘、网络和硬盘。
  2. 负载:目的数据库负载过高会影响同步任务数据写入效率。
  3. 网络:网络的带宽(吞吐量)、网速。

数据开发

  • 业务流程:业务流程由以下各模块的节点组成

    • 数据集成:数据集成任务包括离线同步节点和实时同步节点。
    • MaxCompute:MaxCompute计算引擎包括ODPS SQL、SQL组件节点、ODPS Spark、PyODPS、ODPS Script和ODPS MR等数据开发节点。并可以查看和新建表、资源及函数:
  1. 数据开发:MaxCompute数据开发节点包括ODPS SQL、SQL组件节点、ODPS Spark、PyODPS、ODPS Script和ODPS M;
  2. 表:新建表;
  3. 资源:创建资源;
  4. 函数:新建函数。
    • AnalyticDB for PostgreSQL:可以新建AnalyticDB for PostgreSQL节点和AnalyticDB for PostgreSQL表。
    • EMR:EMR计算引擎包括EMR HIVE、EMR MR、EMR SPARK和EMR SPARK等数据开发节点,并可以查看和新建EMR资源。
    • 算法:机器学习节点。
    • 通用:OSS对象检查、for-each、do-while、归并节点、分支节点、赋值节点、Shell、虚拟节点和跨租户节点。
    • 自定义: Hologres开发、Data Lake Analytics和AnalyticDB for MySQL。
  • 节点组:可以服用的一系列节点的组合。

数据地图

  • 数据地图是在元数据基础上提供的企业数据资产管理模块,涵盖全局数据检索、元数据详情查看、数据预览、数据血缘和数据类目管理等功能。

数据质量

  • 数据质量是支持多种异构数据源的质量校验、通知及管理服务的一站式平台。
  • 数据质量提供全链路的数据质量方案,包括数据探查、对比、质量监控、SQL扫描和智能报警等功能。
  • 数据质量以数据集(DataSet)为监控对象。目前,数据质量支持EMR(E-MapReduce)、Hologres、AnalyticDB for PostgreSQL、MaxCompute数据表和DataHub实时数据流的监控。
  • 数据质量监控的流程
  1. 执行任务
  2. 触发规则
  3. 执行规则
  4. 报警/阻塞

数据服务

  • 生成API:可根据向导模式或脚本模式将关系型数据库和NoSQL数据库的表生成API。
  • 注册API:注册API。
  • API网关:API网关(API Gateway)提供API托管服务,涵盖API发布、管理、运维、售卖的全生命周期管理。
  • API市场:数据服务生成和注册的API发布至API网关后,可以一键上架至阿里云API市场售卖。

DataHub

  • DataHub是阿里云提供的流式数据处理平台,提供对流式数据的发布、订阅和分发功能。
  • StreamCompute是阿里云提供的流计算引擎,提供使用类SQL的语言来进行流式计算。
  • 基本概念

  1. Project:项目(Project)是DataHub数据的基本组织单元,下面包含多个Topic。
  2. Topic:Topic是 DataHub 订阅和发布的最小单位,用户可以用Topic来表示一类或者一种流数据。
  3. Topic Lifecycle:表示一个Topic中写入数据在系统中可以保存的最长时间,以天为单位,最小值为1,最大值为7。
  4. Shard:Shard表示对一个Topic进行数据传输的并发通道。
  5. Shard Merge:Shard合并,可以把相邻的Key Range连接的Shard merge成一个Shard。
  6. Shard Split:Shard分裂,可以把一个Shard分裂成Shard Key Range相连接的两个Shard。
  7. Record:用户数据和 DataHub 端交互的基本单位。
  8. RecordType:Topic的数据类型,目前支持Tuple与Blob两种类型。
  • 应用场景
  1. 实时数据通道:通过数据总线,您可以实时接入APP、WEB、IoT和数据库等产生的异构数据,统一管理,并投递到下游的分析、归档等系统。
  2. 实时数据清洗和分析:通过数据总线和实时计算,您可以把多种数据源的异构数据实时清洗成统一的结构化数据。
  3. 实时数据仓库:通过数据总线搭建原始数据层,实时明细层和实时汇总层,打造实时数据仓库。
  • 当Shard进行Merge/Split后会被置为CLOSED状态,该状态可以继续消费读取数据,但是不可写入,也不可再次进行Merge/Split操作,当到达Topic的lifecycle后该Shard会被回收。
  • Topic在进行Merge/Split后新的Shard需要等待变为ACTIVE状态后方可正常使用,通常不会超过5秒。
  • 数据同步功能支持的阿里云产品
  1. MaxCompute
  2. ADS
  3. RDS
  4. OTS
  5. OSS
  6. ElasticSearch
  7. Hologres
  8. 函数计算服务

Quick BI

  • 基本对象

    • 数据源
    • 数据集
    • 电子表格
    • 仪表板
    • 数据门户
  • 核心流程
    • 获取数据
  1. 从云数据库添加数据源
  2. 添加来自自建数据库的数据源
  3. 上传本地文件
    • 创建数据集
  1. 可以将各种不同的数据源中的表创建为数据集;
  2. 在数据集列表中,可以对已添加的数据集做编辑、移动和删除操作。
    • 仪表板:不仅可以将数据以可视化的方式呈现,还支持通过各种数据筛选和查询,使用各种数据展现方式,突出数据中的关键字段。
    • 电子表格:电子表格适用于群空间下。电子表格是数据集经过分析,加工后的结果。您在选中一个数据集后可以对数据的内容进行分析。
    • 数据门户:可以使用数据门户功能构建例如经营分析系统的应用。数据门户不仅可以引用Quick BI中的数据结果,同时也支持外挂链接。
  • 权限管理
    • 数据对象管理:数据对象支持分享和公开
  1. 被分享的作品可以被其他用户以只读的方式访问,但不允许修改、删除和另存;
  2. 互联网上所有知道链接的人都可以访问被公开的作品。
    • 行级权限管理
  1. 并不是数据集中的所有字段都需要进行行级权限控制;
  2. 目前,成员列表中仅能展示500个成员;
  3. 在列表选择中,有一个特殊的选项,所有。如果将这个选项赋予组织中的某位成员,那么该成员在该字段上将不再受行级权限的限制。

机器学习

  • 基本概念
  • 机器学习包括传统机器学习和深度学习。传统机器学习分为以下几类:
  1. 监督学习:样本都有对应的期望值,通过搭建模型,实现输入特征向量到目标值的映射;
  2. 半监督学习:训练数据部分有标识,部分没标识,模型先学习模型的内在结构,然后进行预测;
  3. 无监督学习:所有样本没有目标值,期望从数据本身发现一些潜在规律;
  4. 增强学习:系统和外界环境不断交互,根据外界反馈决定自身行为,达到长期目标最优化。
  • 机器学习PAI底层支持多种计算框架:
  1. 流式计算框架Flink
  2. 深度学习框架TensorFlow
  3. 千亿特征样本的大规模并行计算框架Parameter Server
  4. Spark、PySpark、MapReduce等业内主流开源框架
  • PAI提供的服务:
  1. 可视化建模和分布式训练PAI-Studio
  2. Notebook交互式AI研发PAI-DSW(Data Science Workshop)
  3. 自动化建模PAI-AutoLearning
  4. 在线预测PAI-EAS(Elastic Algorithm Service)
  • PAI的业务架构
  1. 基础设施层:包括CPU、GPU、FPGA及NPU。
  2. 计算引擎和容器服务层
  3. 计算框架层
  4. 按照机器学习全流程,PAI分别提供了数据准备、模型开发和训练及模型部署阶段的产品
  5. 业务层

阿里云大数据ACP认证学习笔记之——————Dataworks相关推荐

  1. 【赵渝强老师】阿里云大数据ACP认证之阿里大数据产品体系

    阿里大数据产品体系是基于阿里云飞天平台上的数据处理服务.主要分为阿里云大数据基础产品和阿里云数加平台,其产品架构图如下所示: 一.阿里云大数据基础产品 1.云数据库--RDS(ApsaraDB for ...

  2. 阿里云大数据专业认证(ACP),值得报名吗?

    如果你想从事数据领域,那么阿里云大数据ACP证书就很值得考一个! 先来了解一下阿里云认证: 阿里云认证是基于核心技术及岗位的权威认证, 阿里云针对不同产品类别.用户成长阶段.生态岗位,精心打造不同的认 ...

  3. 有人考过阿里云大数据助理工程师认证(ACA)从而能分享心得攻略吗?

    阿里云认证分为ACA.ACP.ACE三个级别,目前相对来说,ACP级别的考试人数最多,也相对来说,含金量还可以,ACA就比较建议大学生考了,含金量不是很高,难度也不高.可以试试直接考ACP.ACP认证 ...

  4. 阿里云大数据助理工程师认证考试考什么内容?

    阿里云认证分为ACA.ACP.ACE三个级别,本文主要针对ACP认证.ACP认证目前按专业方向主要分四种:云计算(主要对应阿里云基础架构产品).大数据(主要对应阿里云大数据系列产品).云安全(主要对应 ...

  5. 阿里云大数据ACA认证考试总结

    刚参加完阿里云大数据助理工程师认证(ACA)考试,趁还有点记忆,总结一下. 在官网上没有找到ACA的考试大纲和样题,遂看了ACP的,结果有点误导.ACP考试大纲说maxcompute占55%,data ...

  6. 阿里云ACA大数据助理工程师认证学习笔记和题

    1 某大型企业计划使用MaxCompute对本公司的数据进行加工和分析,预计该项目会有上万个表.数干个本题分信任务,同时有近4人的团队负责该项目的建设和运维.从工程角度出发, ()可以大大减少项目管理 ...

  7. 阿里云大数据ACP(一)大数据开发平台 DataWorks

    文章目录 一.DataWorks 简介 1.1 DataWorks 的功能概述 1.2 DataWorks 产品特点 1.3 DataWorks 产品优势 1.4 应用场景 (助力企业搭建大数据信息平 ...

  8. 【实验】阿里云大数据助理工程师认证(ACA)- 机器学习实现基本统计分析

    实验概述 本实验在阿里云PAI机器学习平台上,对一组农业数据进行基本的统计分析,包括观察数据的分布情况,对农民的收入和其他变量的相关性进行分析,对不同区域的农民收入进行分组分析和对比分析,以探讨不同地 ...

  9. 【大数据】阿里云大数据专业认证考试

    大数据: 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化的信息资 ...

最新文章

  1. 开启Windows8里面的Hyper-V虚拟机功能
  2. profiles 配置详解
  3. ThreadLocal可以解决并发问题吗
  4. mysql linux selected_MySQL的查询语句--SELECT
  5. Linux下画原理图和PCB
  6. java中塑形_Java学习5——接口和多态
  7. Spring AOP中的前置通知和后置通知详解
  8. 横向导出excel_万能转换:R图和统计表转成发表级的Word、PPT、Excel、HTML、Latex、矢量图等...
  9. [转载]C#异步调用四大方法详解
  10. 人工智能的变革趋势: 从弱人工智能到强人工智能,再到生物智能
  11. 如何设置内网和外网同时使用
  12. CentOS-8 dnf 前端工具学习笔记
  13. unity学习之遮挡剔除
  14. [POI2008]Mirror Trap
  15. 浙江独立学院计算机专业排名2015,2018中国独立学院排行榜发布,浙江这所独立学院独占鳌头!...
  16. 现有的CEP产品介绍
  17. 漫谈数据库领域职业定位与发展
  18. vscode快速设置console.log快捷键
  19. http post请求
  20. oem客户工程流程图_新产品OEM开发及生产流程图

热门文章

  1. linux硬盘 换机器码,在Linux工作站上安装AMS、获取机器码、申请锁定license、安装license...
  2. 链式法则-梯度更新公式推导(手写笔记)
  3. 2023年上半年软件设计师上午试卷及答案
  4. 小学数学教材分析——分数的定义
  5. 如何选择漏电保护器规格型号_漏电保护器该怎么选择呢?
  6. win 10 主题 美化
  7. Win10 定制美化神器
  8. oracle scur,详解Oracle游标的简易用法
  9. 共看海天成一色——河北乐亭游记(预热篇)
  10. Back Channel实例:client发语音给相机的抓包数据