MaxCompute(ODPS)是适用于数据分析场景的企业级SaaS(Software as a Service)模式云数据仓库,以Serverless架构提供快速、全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您可以经济并高效地分析处理海量数据。

MaxCompute提供离线和流式数据的接入,支持大规模数据计算及查询加速能力,提供面向多种计算场景的数据仓库解决方案及分析建模服务。MaxCompute还提供完善的数据导入方案以及多种经典的分布式计算模型,可以不必关心分布式计算和维护细节,便可轻松完成大数据分析。

MaxCompute适用于100 GB以上规模的存储及计算需求,最大可达EB级别。

MaxCompute适用于大型互联网企业的数据仓库和BI分析、网站的日志分析、电子商务网站的交易分析、用户特征和兴趣挖掘等。

核心功能

功能分类 功能描述
全托管的Serverless在线服务
  • 对外以API方式访问的在线服务,开箱即用。
  • 预铺设大规模集群资源,近乎无限资源,您可以按需使用、按量计费。
  • 无需平台运维,最小化运维投入。
弹性能力与扩展性
  • 存储和计算独立扩展,支持企业将全部数据资产在一个平台上进行联动分析,消除数据孤岛。
  • 支持实时根据业务峰谷变化分配资源。
统一丰富的计算和存储能力
  • MaxCompute支持多种计算模型和丰富的UDF。
  • 采用列压缩存储格式,通常情况下具备5倍压缩能力,可以大幅节省存储成本。
与DataWorks深度集成 一站式数据开发与治理平台DataWorks,可实现全域数据汇聚、融合加工和治理。DataWorks支持对MaxCompute项目进行管理以及Web端查询编辑。
集成AI能力
  • 与机器学习平台PAI无缝集成,提供强大的机器学习处理能力。
  • 您可以使用熟悉的Spark-ML开展智能分析。
  • 使用Python机器学习三方库。
深度集成Spark引擎
  • 内建Apache Spark引擎,提供完整的Spark功能。
  • 与MaxCompute计算资源、数据和权限体系深度集成。
湖仓一体
  • 集成对数据湖(OSS或Hadoop HDFS)的访问分析,支持通过外部表映射、Spark直接访问方式开展数据湖分析。
  • 在一套数据仓库服务和用户接口下,实现数据湖与数据仓库的关联分析
支持流式采集和近实时分析
  • 支持流式数据实时写入并在数据仓库中开展分析。
  • 与云上主要流式服务深度集成,轻松接入各种来源的流式数据。
  • 支持高性能秒级弹性并发查询,满足近实时分析场景需求。
提供持续的SaaS化云上数据保护 为云上企业提供基础设施、数据中心、网络、供电、平台安全能力、用户权限管理、隐私保护等三级超20项安全功能,兼具开源大数据与托管数据库的安全能力。

产品架构

MaxCompute的产品架构如下。

模块名称 功能说明
存储
  • MaxCompute Tables:表是MaxCompute的数据存储单元。MaxCompute中不同类型作业的操作对象(输入、输出)都是表。
  • Compression Strategy:MaxCompute采用列压缩存储格式,通常情况下具备5倍压缩能力。
  • AliORC:MaxCompute数据存储格式全面升级为AliORC,具备更高存储性能。
计算引擎 MaxCompute本身具备计算引擎能力。在处理Spark作业时,MaxCompute运行在阿里云自研的CUPID平台之上,可以原生支持开源社区Yarn所支持的计算框架。
计算模型数据通道 MaxCompute支持多种数据通道满足多场景需求:

  • SQL:MaxCompute对外提供SQL功能。您可以将MaxCompute作为传统的数据库软件操作,但其却能处理EB级别的海量数据。说明

    • MaxCompute SQL不支持事务、索引。
    • MaxCompute的SQL语法与Oracle、MySQL有一定差别,您无法将其他数据库中的SQL语句无缝迁移至MaxCompute中。详情请参见与其他SQL语法的差异。
    • MaxCompute主要用于100 GB以上规模的数据计算,因此MaxCompute SQL最快支持在分钟或秒钟级别完成查询返回结果,但无法在毫秒级别返回结果。
    • MaxCompute SQL的优点是学习成本低,您不需要了解复杂的分布式计算概念。如果您具备数据库操作经验,便可快速熟悉MaxCompute SQL的使用。
  • External Table:提供处理除MaxCompute内部表以外的其他数据的能力。您可以通过一条简单的DDL语句,在MaxCompute上创建一张外部表,通过外部表关联外部数据源。
  • Java UDF:当MaxCompute的内建函数无法满足计算需求时,您可以通过Java构建自定义函数。
  • Python UDF:当MaxCompute的内建函数无法满足计算需求时,您可以通过Python构建自定义函数。
  • MapReduce:MapReduce是MaxCompute提供的Java MapReduce编程模型,它可以简化开发流程,更为高效。
  • Hologres:Hologres与MaxCompute在底层无缝连接,您无须移动数据,即可使用标准的PostgreSQL语句查询分析MaxCompute中的海量数据,快速获取查询结果。
  • PAI:PAI是基于MaxCompute的一款机器学习算法平台。它实现了数据无需搬迁,便可进行从数据处理、模型训练、服务部署到预测的一站式机器学习。
  • PyODPS:PyODPS是MaxCompute的Python版本的SDK,提供简单方便的Python编程接口。
  • Graph:Graph是一套面向迭代的图计算处理框架。
  • Tunnel:提供高并发的数据上传下载服务。
  • Mars:Mars是一个基于张量的统一分布式计算框架。Mars能利用并行和分布式技术,为Python数据科学栈加速。
  • SQLML:SQLML功能依赖MaxCompute和机器学习PAI。您可以通过客户端开发MaxCompute SQLML作业,基于机器学习PAI对MaxCompute上的数据进行学习,并利用机器学习模型对数据进行预测,进而为业务规划提供指导。
  • Flink:Flink为MaxCompute提供实时数据处理能力。
  • Spark:Spark是MaxCompute提供的兼容开源Spark的计算服务。它在统一的计算资源和数据集权限体系之上,提供Spark计算框架,支持您以熟悉的开发使用方式提交运行Spark作业,满足更丰富的数据处理分析需求。
用户接口 MaxCompute提供如下用户接口:

  • Java SDK
  • Python SDK
  • JDBC
  • Restful API
统一元数据及安全体系 MaxCompute的Information Schema提供项目元数据及使用历史数据等信息,您可以对作业的运行情况,例如资源消耗、运行时长、数据处理量等指标进行分析,用于优化作业或规划资源容量。

MaxCompute还提供了完善的安全管理体系,例如访问控制、数据加密、动态脱敏等为数据安全性提供保障。更多安全相关信息,请参见安全管理。

产品优势

MaxCompute的主要优势如下:

  • 简单易用

    • 面向数据仓库实现高性能存储、计算。
    • 预集成多种服务,标准SQL开发简单。
    • 内建完善的管理和安全能力。
    • 免运维,按量付费,不使用不产生费用。
  • 匹配业务发展的弹性扩展能力

    存储和计算独立扩展,动态扩缩容,按需弹性扩展,无需提前规划容量,满足突发业务增长。

  • 支持多种分析场景

    支持开放数据生态,以统一平台满足数据仓库、BI、近实时分析、数据湖分析、机器学习等多种场景。

  • 开放的平台
    • 支持开放接口和生态,为数据、应用迁移、二次开发提供灵活性。
    • 支持与Airflow、Tableau等开源和商业产品灵活组合,构建丰富的数据应用。

什么是MaxCompute相关推荐

  1. MaxCompute动态更新表中某个(多个)字段的数据

    功能 MaxCompute支持了delete.update功能,但当您需要使用多个insert.update.delete对目标表进行批量操作时,需要编写多条SQL语句,然后进行多次全表扫描才能完成操 ...

  2. [MaxCompute MapReduce实践]通过简单瘦身,解决Dataworks 10M文件限制问题

    用户在DataWorks上执行MapReduce作业的时候,文件大于10M的JAR和资源文件不能上传到Dataworks,导致无法使用调度去定期执行MapReduce作业. 解决方案: 第一步:大于1 ...

  3. 阿里云大数据计算服务MaxCompute(下篇)

    关于阿里云大数据计算服务MaxCompute的详细内容: 阿里云大数据计算服务MaxCompute使用教程 (MaxCompute(原ODPS)是一项大数据计算服务,它能提供快速.完全托管的PB级数据 ...

  4. 王坚十年前的坚持,才有了今天世界顶级大数据计算平台MaxCompute...

    如果说十年前,王坚创立阿里云让云计算在国内得到了普及,那么王坚带领团队自主研发的大数据计算平台MaxCompute则推动大数据技术向前跨越了一大步. 数据是企业的核心资产,但十年前阿里巴巴的算力已经无 ...

  5. MaxCompute studio与权限那些事儿

    背景知识 MaxCompute拥有一套强大的安全体系,来保护项目空间里的数据安全.用户在使用MaxCompute时,应理解权限的一些基本概念: 权限可分解为三要素,即主体(用户账号或角色),客体(表/ ...

  6. 大数据处理也要安全--关于MaxCompute的安全科普

    [TOC] 1.企业大数据处理现状 当今社会数据收集手段不断丰富,行业数据大量积累,数据规模已增长到了传统软件行业无法承载的海量数据(百GB.TB乃至PB)级别.基于此,阿里云推出有了一套快速.完全托 ...

  7. 重磅!MaxCompute助力阿里开源自研语音识别模型DFSMN,准确率高达96.04%

    阿里开源语音识别模型DFSMN 在近期举行的云栖大会武汉峰会上,装有DFSMN语音识别模型的"AI收银员"在与真人店员的PK中,在嘈杂环境下准确识别了用户的语音点单,在短短49秒内 ...

  8. MaxCompute助力OSS支持EB级计算力

    一. MaxCompute是什么? 你的OSS数据是否作堆积在一旁沉睡已久,存储成本变为企业负担?你是否想唤醒沉睡的数据,驱动你的业务前行?MaxCompute可以帮助你高效且低成本的解决这些问题,通 ...

  9. MaxCompute Studio使用心得系列7—作业对比

    2019独角兽企业重金招聘Python工程师标准>>> 在数据开发过程中,我们通常需要将两个作业进行对比从而定位作业运行性能或者结果有差异的问题,但是对比作业时需要同时打开两个stu ...

  10. 王坚十年前的坚持,才有了今天世界顶级大数据计算平台MaxCompute

    2019独角兽企业重金招聘Python工程师标准>>> 如果说十年前,王坚创立阿里云让云计算在国内得到了普及,那么王坚带领团队自主研发的大数据计算平台MaxCompute则推动大数据 ...

最新文章

  1. h5 数字变化_前端/h5 D3.js实现根据数据动态更新图形/类似进度实时变化效果
  2. SQL 流程控制语句 之四 WAITFOR语句介绍
  3. OOD之问题空间到解空间—附FP的建模
  4. oracle时间戳效率问题,时间戳问题 - Oracle开发 - ITPUB论坛-中国专业的IT技术社区...
  5. Linux Shell脚本入门教程系列之(十二)Shell until循环
  6. CAS自旋锁到底是什么?为什么能实现线程安全?
  7. 【工程项目经验】之C语言或汇编语言宏展开
  8. PHP里的“夏令虫”
  9. JAVA日常优化---Guava缓存玩耍异步刷新
  10. 51黑单片机论坛c语言,51黑论坛_51单片机轻松入门—基于STC15W4K系列
  11. 支付宝和微信的支付功能如何进行测试?
  12. 实时监控网页变化,并增加多种提示信息
  13. ftdi+usb转串口驱动+android,FTDI usb转串口驱动
  14. 迷茫时的3个选择,决定了你人生的高度
  15. 计算机开机没有d盘,电脑每次开机总是自检D盘的解决办法
  16. DAOS 系统内部介绍(一)—— 概述
  17. Centos7快速搭建服务器加速
  18. 京东零售大数据云原生平台化实践
  19. 计算机发展的各个阶段是以什么作为标志的,计算机发展的各个阶段是以什么作为标志的?...
  20. vue——数字加逗号分隔

热门文章

  1. 爱奇艺APP全面适配iOS 14 首批支持画中画功能 追剧聊天两不误
  2. 编程Go:return、break、continue
  3. poj 3684 数学物理题 Physics Experiment
  4. git checkout常用命令
  5. 树莓派python蓝牙_树莓派3B 爬虫蓝牙播放器
  6. 网易收购锤子的可能与不可能(老罗已辟谣)
  7. 关于证书链的一点认知
  8. (转自网易--无风)IGMP V1 V2 V3 定义和区别
  9. isdigit python函数什么意思_Python isdigit() 方法检测字符串是否只由数字组成
  10. 设计函数求 N 个给定整数的均方差。若将 N 个数 A[ ] 的平均值记为 Avg,则均方差计算公式为: