MPP 技术简述,Hadoop 与 MPPDB 的区别
精选30+云产品,助力企业轻松上云!>>>
整理 OLAP 引擎的时候,遇到了 MPP ,所以再次总结一下。
1、 什么是MPP?
MPP (Massively Parallel Processing),即大规模并行处理,在数据库非共享集群中,每个节点都有独立的磁盘存储系统和内存系统,业务数据根据数据库模型和应用特点划分到各个节点上,每台数据节点通过专用网络或者商业通用网络互相连接,彼此协同计算,作为整体提供数据库服务。非共享数据库集群有完全的可伸缩性、高可用、高性能、优秀的性价比、资源共享等优势。
简单来说,MPP是将任务并行的分散到多个服务器和节点上,在每个节点上计算完成后,将各自部分的结果汇总在一起得到最终的结果(与Hadoop相似)。
2、MPP(大规模并行处理)架构
(MPP架构)
3、 MPP架构特征
● 任务并行执行;
● 数据分布式存储(本地化);
● 分布式计算;
● 私有资源;
● 横向扩展;
● Shared Nothing架构。
4、 MPP服务器架构
它由多个SMP服务器通过一定的节点互联网络进行连接,协同工作,完成相同的任务,从用户的角度来看是一个服务器系统。其基本特征是由多个SMP服务器(每个SMP服务器称节点)通过节点互联网络连接而成,每个节点只访问自己的本地资源(内存、存储等),是一种完全无共享(Share Nothing)结构,因而扩展能力最好,理论上其扩展无限制。
5、MPPDB
MPPDB是一款 Shared Nothing 架构的分布式并行结构化数据库集群,具备高性能、高可用、高扩展特性,可以为超大规模数据管理提供高性价比的通用计算平台,并广泛地用于支撑各类数据仓库系统、BI 系统和决策支持系统
6、MPPDB架构
MPP 采用完全并行的MPP + Shared Nothing 的分布式扁平架构,这种架构中的每一个节点(node)都是独立的、自给的、节点之间对等,而且整个系统中不存在单点瓶颈,具有非常强的扩展性。
7、 MPPDB特征
MPP 具备以下技术特征:
1) 低硬件成本:完全使用 x86 架构的 PC Server,不需要昂贵的 Unix 服务器和磁盘阵列;
2) 集群架构与部署:完全并行的 MPP + Shared Nothing 的分布式架构,采用 Non-Master 部署,节点对等的扁平结构;
3) 海量数据分布压缩存储:可处理 PB 级别以上的结构化数据,采用 hash分布、random 存储策略进行数据存储;同时采用先进的压缩算法,减少存储数据所需的空间,可以将所用空间减少 1~20 倍,并相应地提高 I/O 性能;
4) 数据加载高效性:基于策略的数据加载模式,集群整体加载速度可达2TB/h;
5) 高扩展、高可靠:支持集群节点的扩容和缩容,支持全量、增量的备份/恢复;
6) 高可用、易维护:数据通过副本提供冗余保护,自动故障探测和管理,自动同步元数据和业务数据。提供图形化工具,以简化管理员对数据库的管理工作;
7) 高并发:读写不互斥,支持数据的边加载边查询,单个节点并发能力大于 300 用户;
8) 行列混合存储:提供行列混合存储方案,从而提高了列存数据库特殊查询场景的查询响应耗时;
9) 标准化:支持SQL92 标准,支持 C API、ODBC、JDBC、ADO.NET 等接口规范。
8、 常见MPPDB
● GREENPLUM(EMC)
● Asterdata(Teradata)
● Nettezza(IBM)
● Vertica(HP)
● GBase 8a MPP cluster(南大通用)
9、 MPPDB、Hadoop与传统数据库技术对比与适用场景
MPPDB与Hadoop都是将运算分布到节点中独立运算后进行结果合并(分布式计算),但由于依据的理论和采用的技术路线不同而有各自的优缺点和适用范围。两种技术以及传统数据库技术的对比如下:
综合而言,Hadoop和MPP两种技术的特定和适用场景为:
● Hadoop在处理非结构化和半结构化数据上具备优势,尤其适合海量数据批处理等应用要求。
● MPP适合替代现有关系数据机构下的大数据处理,具有较高的效率。
MPP适合多维度数据自助分析、数据集市等;Hadoop适合海量数据存储查询、批量数据ETL、非机构化数据分析(日志分析、文本分析)等。
由上述对比可预见未来大数据存储与处理趋势:MPPDB+Hadoop混搭使用,用MPP处理PB级别的、高质量的结构化数据,同时为应用提供丰富的SQL和事物支持能力;用Hadoop实现半结构化、非结构化数据处理。这样可以同时满足结构化、半结构化和非结构化数据的高效处理需求。
专注大数据技术、架构、实战
关注我,带你不同角度看数据架构
本文分享自微信公众号 - 大数据每日哔哔(bb-bigdata)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。
MPP 技术简述,Hadoop 与 MPPDB 的区别相关推荐
- MPP架构与Hadoop架构是一回事吗?
计算机领域的很多概念都存在一些传播上的"谬误". MPP这个概念就是其中之一.它的"谬误"之处在于,明明叫做"Massively Parallel P ...
- 大数据技术之Hadoop(MapReduce)
大数据技术之Hadoop(MapReduce) (作者:大数据研发部) 版本:V1.4 第1章MapReduce入门 map 计算 reduce 规约 1.1 MapReduce定义 Mapreduc ...
- 微型直流减速电机简述:无刷电机与有刷电机区别分析
参考文献 [1] 刘爱民, 倪元相. 电机与拖动技术[M]. 第二版. 大连:大连理工大学出版社, 2017. [2] 王爱元. 控制电机及其应用[M]. 第一版. 上海:上海交通大学出版社, 201 ...
- 容器(dockerk8s)技术简述
文章目录 容器技术简述 1.容器是什么 2.容器的历史和发展 3.为什么使用容器 3.1 虚拟化技术演历路径 3.2 容器 VS 虚拟机 4.容器解决了什么 5.容器原理 5.1 Namespace ...
- 四代 DNA 测序技术简述*
四代 DNA 测序技术简述 姚亭秀 (北京市第八十中学 北京 100102) 摘要 DNA 测序技术是现代分子生物学研究中最常用的技术,极大推动了生物学的发展.从 20世纪 70 年代至今,DNA 测 ...
- hadoop和spark的区别
hadoop和spark的区别 学习hadoop已经有很长一段时间了,好像是二三月份的时候朋友给了一个国产Hadoop发行版下载地址,因为还是在学习阶段就下载了一个三节点的学习版玩一下.在研究.学习h ...
- H.264中的SPamp;amp;SI帧技术简述
H.264中的SP&SI帧技术简述 1 应用背景(详细可见文献[1,2]) 流间切换.随机接入.错误恢复.快进快退.拼接 2 SP/SI帧 ...
- 软件复用及构件、C/S与B/S混合模型及实战项目技术简述
软件复用与软件构造技术 软件复用行为主要发生维度 时间维度:使用以前的软件版本作为新版本的基础,加入新功能,适应新需求,即软件维护. 平台维度:以某平台上的软件为基础,修改和运行平台相关的部分,使其运 ...
- 数据技术之Hadoop(HFDS文件系统)
大数据技术之Hadoop (HDFS文件系统) 一 HDFS概念 1.1 概念 HDFS,它是一个文件系统,用于存储文件,通过目录树来定位文件:其次,它是分布式的,由很多服务器联合起来实现其功能,集群 ...
最新文章
- Redis中持久化的两种方法详解
- Java类加载器(一)——类加载器层次与模型
- windows消息机制深入详解-1
- html在线音频播放器实训总结,HTML5音乐列表播放器SMusic开发总结
- 计算机基础知识 笔试,计算机基础知识笔试题
- UVa10082 - WERTYU
- Qt 学习之路 2(2):Qt 简介 笔记
- 物理内存管理之zone详解
- 编程语言-什么是低级语言?
- 服务器修改硬盘顺序,服务器硬盘阵列硬盘顺序
- PyQt5_pyqtgraph股票MACD指标
- 鸿蒙OS不支持游戏,部分安卓游戏在华为鸿蒙 OS 上运行,被识别成使用 PC 端模拟器...
- CSS实现抽奖大转盘
- 测试英语词水平的软件,英语词汇量测试程序
- Fiddler实现苹果手机APP抓包
- 汇正财经骗局?科创50大涨
- 北京同创蓝天的全景航拍技术如何?应用在哪些方面呢?
- [BBS 水木清华站]给Linux新手
- 关不上的窗徘徊在爱与痛的边缘
- 2022 Java面试题道通科技