一、简述

目前Hadoop的发行版除了Apache的开源版本之外,还有华为发行版、Intel发行版、Cloudera发行版(CDH)、Hortonworks发行版(HDP)、MapR等,所有这些发行版均是基于Apache Hadoop衍生出来的,因为Apache Hadoop的开源协议允许任何人对其进行修改并作为开源或者商业产品发布。国内大多数公司发行版是收费的,比如Intel发行版、华为发行版等。不收费的Hadoop版本主要有国外的四个,分别是Apache基金会hadoop、Cloudera版本(CDH)、Hortonworks版本(HDP)、MapR版本。

二、 Apache社区版本

Apache社区版本是原生的hadoop。

优点:

完全开源免费
社区活跃
文档、资料详实

缺点:

(1)复杂的版本管理。

版本管理比较混乱,各种版本层出不穷,让使用者不知所措。

(2)复杂的集群部署、安装、配置。

通常按照集群需要编写大量的配置文件,分发到每一台节点上,容易出错,效率低下。

(3)复杂的集群运维。

对集群的监控,运维,需要安装第三方的其他软件,如ganglia,nagois等,运维难度较大。

(4)复杂的生态环境。

在Hadoop生态圈中,组件的选择、使用,比如Hive,Mahout,Sqoop,Flume,Spark,Oozie等等,需要大量考虑兼容性的问题,版本是否兼容,组件是否有冲突,编译是否能通过等。经常会浪费大量的时间去编译组件,解决版本冲突问题。

三、第三方发行版

以下四种为具有代表性的第三方发行版:

1、Cloudera版本(CDH)

CDH版(Cloudera Hadoop):最成型的发行版本,拥有最多的部署案例。提供强大的部署、管理和监控工具。Cloudera开发并贡献了可实时处理大数据的Impala项目。CDH有免费版和企业版,企业版只有试用期。

2、Hortonworks版本(HDP)

HDP版(Hortonworks Hadoop)区别于其他的Hadoop发行版(如Cloudera)的根本就在于,Hortonworks的产品均是百分之百开源。

Hortonworks是第一家使用了Apache HCatalog的元数据服务特性的提供商。并且,它们的Stinger开创性地极大地优化了Hive项目。Hortonworks为入门提供了一个非常好的,易于使用的沙盒。Hortonworks开发了很多增强特性并提交至核心主干,这使得Apache
Hadoop能够在包括Windows Server和Windows Azure在内的Microsft Windows平台上本地运行。

3、TDH(Transwarp Data Hub)

TranswarpInceptor是星环科技推出的用于数据仓库和交互式分析的大数据平台软件,它基于Hadoop和Spark技术平台打造,加上自主开发的创新功能组件,有效的解决了企业级大数据数据处理和分析的各种技术难题,帮助企业快速的构建和推广数据业务。从2016年起,TDH正式成为Gartner认可的Hadoop国际主 流发行版本。

TDH是国内首个全面支持Spark的Hadoop发行版,也是国内落地案例最多的商业版本,是国内外领先的高性能平台,比开源基于Hadoop
MapReduce计算框架的版本快10x~100x倍。TDH应用范围覆盖各种规模和不同数据量的企业,通过内存计算、高效索引、执行优化和高度容错的技术,使得一个平台能够处理GB级到PB级的数据,并且在每个数量级上,都能比现有技术提供更快的性能;企业客户不再需要混合架构,TDH可以伴随企业客户的数据增长,动态不停机扩容,避免MPP或混合架构数据迁移的棘手问题。

Transwarp Data Hub由Apache Hadoop、6款核心产品、大数据开发工具集Studio、安全管控平台 Guardian和管理服务Manager构成

4、 MapR:

与竞争者相比,它使用了一些不同的概念,特别是为了获取更好的性能和易用性而支持本地Unix文件系统而不是HDFS(使用非开源的组件)。可以使用本地Unix命令来代替Hadoop命令。除此之外,MapR还凭借诸如快照、镜像或有状态的故障恢复之类的高可用性特性来与其他竞争者相区别。该公司也领导着Apache Drill项目,本项目是Google的Dremel的开源项目的重新实现,目的是在Hadoop数据上执行类似SQL的查询以提供实时处理。

5、EMR

Amazon Elastic Map Reduce(EMR):区别于其他提供商的是,这是一个托管的解决方案,其运行在由Amazon Elastic Compute Cloud(Amazon EC2)和Amzon Simple Strorage Service(Amzon S3)组成的网络规模的基础设施之上。

除了Amazon的发行版本之外,你也可以在EMR上使用MapR。临时集群是主要的使用情形。如果你需要一次性的或不常见的大数据处理,EMR可能会为你节省大笔开支。然而,这也存在不利之处。其只包含了Hadoop生态系统中Pig和hive项目,在默认情况下不包含其他很多项目。并且,EMR是高度优化成与S3中的数据一起工作的,这种方式会有较高的延时并且不会定位位于你的计算节点上的数据。所以处于EMR上的文件IO相比于你自己的Hadoop集群或你的私有EC2集群来说会慢很多,并有更大的延时。

其它:Apache Ambari

Apache Ambari是一个基于web的工具,用于配置、管理和监视Apache Hadoop集群,支持Hadoop HDFS,、Hadoop MapReduce、Hive、HCatalog,、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari同样还提供了集群状况仪表盘,比如heatmaps和查看MapReduce、Pig、Hive应用程序的能力,以友好的用户界面对它们的性能特性进行诊断。

优缺点

1.优点

(1)对于几种第三方版本,基于Apache协议,100%开源。
(2)版本管理清晰。比如Cloudera,CDH1,CDH2,CDH3,CDH4,CDH5等,后面加上补丁版本,如CDH4.1.0
patch level 923.142,表示在原生态Apache Hadoop 0.20.2基础上添加了1065个patch。
(3)比Apache
Hadoop在兼容性、安全性、稳定性上有增强。第三方发行版通常都经过了大量的测试验证,有众多部署实例,大量的运行到各种生产环境。
(4)版本更新快。通常情况,比如CDH每个季度会有一个update,每一年会有一个release。基于稳定版本Apache
Hadoop,并应用了最新Bug修复或Feature的patch
(5)提供了部署、安装、配置工具,大大提高了集群部署的效率,可以在几个小时内部署好集群。
(6)运维简单。提供了管理、监控、诊断、配置修改的工具,管理配置方便,定位问题快速、准确,使运维工作简单,有效。

缺点:

涉及到厂商锁定的问题。(可以通过技术解决)

总结:

综上所述,考虑到大数据平台高效的部署和安装,中心化的配置管理,使用过程中的稳定性、兼容性、扩展性,以及未来较为简单、高效的运维,遇到问题低廉的解决成本。建议使用第三方发行版本。其中在第三发发行版中,国内应用较多的是Cloudera的CDH。

Apache 、CDH、TDH、HDP、MapR等Hadoop版本区别相关推荐

  1. Hadoop版本:CDH, HDP, MapR

    Hadoop版本:CDH, HDP, MapR 学习了:http://dongxicheng.org/mapreduce-nextgen/hadoop-distribution-selection/ ...

  2. CDH(Cloudera)与hadoop(apache)对比

    本文出自:CDH(Cloudera)与hadoop(apache)对比http://www.aboutyun.com/thread-9225-1-1.html(出处: about云开发)   问题导读 ...

  3. Cloudera的CDH和Apache的Hadoop的区别

    Cloudera的CDH和Apache的Hadoop的区别 目前而言,不收费的Hadoop版本主要有三个(均是国外厂商),分别是:Apache(最原始的版本,所有发行版均基于这个版本进行改进).Clo ...

  4. 【大数据】大数据 Hadoop 管理工具 Apache Ambari(HDP)

    文章目录 一.概述 二. Ambari 与 HDP 关系 三.Ambari 与 Cloudera manager 的对比 1)开源性 2)支持的发行版 3)用户界面 4)功能和扩展性 5)社区支持和生 ...

  5. Apache Hadoop版本详解

    由doop版本混乱多变,因此,Hadoop的版本选择问题一直令很多初级用户苦恼.本文总结了ApacheHadoop和Cloudera Hadoop的版本衍化过程,并给出了选择Hadoop版本的一些建议 ...

  6. 自学大数据:用以生产环境的Hadoop版本比较

    一.背景介绍 生产环境中,hadoop的版本选择是一个公司架构之时,很重要的一个考虑因素.这篇文章根据就谈谈现在主流的hadoop版本的比较.如果有不同意见,或者指正,希望大家能交流. Apache ...

  7. 【大数据技术】操作系统和Hadoop版本选择

    1.操作系统选择 Hadoop产品是由Java语言开发的,所以推荐的是Linux操作系统,理由很简单开源免费,推荐的操作系统CentOS. CentOS是一个基于Red Hat 企业级 Linux 提 ...

  8. 大快网站:如何选择正确的hadoop版本

    大快网站:如何选择正确的hadoop版本 Hadoop的环境安装部署是所有刚开始学习hadoop必然要面对的一个问题,对于新手而言基本不会一次性部署成功,甚至可能要花费好几天的时间才能完成hadoop ...

  9. 挑选Hadoop版本

    1.      在Google上搜索hadoop company list Ø  找到目前拥有Hadoop集群的公司及数量: http://www.hadoopwizard.com/which-big ...

最新文章

  1. 【PAT乙级】1077 互评成绩计算 (20 分)
  2. .net连接MYSQL数据库方法一
  3. 通过思科构造局域网_从Cisco DNA中心的管理的和设置的非结构Catalyst 9800无线局域网控制器...
  4. 理解 Visual C++ 应用程序的依赖项(msdn)
  5. freeswitch:sofia.c:5180 Invalid ext-sip-ip
  6. Kali Linux零基础入门到精通
  7. 省市区县街道地图json
  8. 如何撰写专利说明书?
  9. 方舟手游怎么在服务器用gg修改器,方舟手游gg修改器脚本
  10. 2021年中国传统文化锦集(中国人必须了解的)
  11. 动态监听监听和静态注册---elaine
  12. 【R语言数据科学】(十二):有趣的概率学(上)
  13. 2018届成都市二诊数学(文)21题第二问的另类证法(切线放缩法)
  14. Win10 Microsoft Edge浏览器播放视频出现绿屏情况解决之一
  15. 华为android系统通知栏怎么关闭,华为通知栏怎么设置?三招帮你禁止华为通知栏消息...
  16. 基于HTML+CSS制作静态页面【剪纸文化15页】传统文化设计题材 dreamweaver制作静态html网页设计作业作品...
  17. 开发中的技术选型调研总结
  18. 真实机下 ubuntu 18.04 安装anaconda+cuDNN+pytorch以及其版本选择(亲测非常实用)
  19. Promise.all()、Promise.allSettled()、Promise.any()、Promise.race()用法与区别
  20. TokenUtil工具类(生成token和解析token)

热门文章

  1. java招聘网站项目_基于jsp的招聘网站-JavaEE实现招聘网站 - java项目源码
  2. JavaScript中的isNaN函数
  3. JQuery效果——如何切换图片颜色
  4. Docker启动Nacos(单例)、Redis
  5. Android 的暗示 hint 用法
  6. 图像处理之同态滤波实现灰度图像增强
  7. 怕自己忘了复习mybtais(1)
  8. 云原生 Amazon Aurora分布式RPC应用
  9. 买了一个变形金刚式的手机
  10. [附源码]计算机毕业设计Python+uniapp基于微信小程序社区订单管理系统lum8u(程序+lw+远程部署)