一、综述

目前Hadoop发行版非常多,有华为发行版、Intel发行版、Cloudera发行版(CDH)等,所有这些发行版均是基于Apache Hadoop衍生出来的,之所以有这么多的版本,完全是由Apache Hadoop的开源协议决定的:任何人可以对其进行修改,并作为开源或商业产品发布/销售。(http://www.apache.org/licenses/LICENSE-2.0)。
CDH全称是Cloudera
国内绝大多数公司发行版是收费的,比如Intel发行版、华为发行版等,尽管这些发行版增加了很多开源版本没有的新feature,但绝大多数公司选择Hadoop版本时会将把是否收费作为重要指标,不收费的Hadoop版本主要有三个(均是国外厂商),分别是:

  • Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称“CDH”)
  • Apache基金会hadoop
  • Hortonworks版本(Hortonworks Data Platform,简称“HDP”)

对于国内而言,绝大多数选择CDH版本。

二、社区版本与第三方发行版本的比较

1.Apache社区版本

优点:
完全开源免费。
社区活跃
文档、资料详实

缺点:
----复杂的版本管理。版本管理比较混乱的,各种版本层出不穷,让很多使用者不知所措。
----复杂的集群部署、安装、配置。通常按照集群需要编写大量的配置文件,分发到每一台节点上,容易出错,效率低下。
----复杂的集群运维。对集群的监控,运维,需要安装第三方的其他软件,如ganglia,nagois等,运维难度较大。
----复杂的生态环境。在Hadoop生态圈中,组件的选择、使用,比如Hive,Mahout,Sqoop,Flume,Spark,Oozie等等,需要大量考虑兼容性的问题,版本是否兼容,组件是否有冲突,编译是否能通过等。经常会浪费大量的时间去编译组件,解决版本冲突问题。

2.第三方发行版本(如CDH,HDP,MapR等)

优点:
----基于Apache协议,100%开源。
----版本管理清晰。比如Cloudera,CDH1,CDH2,CDH3,CDH4等,后面加上补丁版本,如CDH4.1.0 patch level 923.142,表示在原生态Apache Hadoop 0.20.2基础上添加了1065个patch。
----比Apache Hadoop在兼容性、安全性、稳定性上有增强。第三方发行版通常都经过了大量的测试验证,有众多部署实例,大量的运行到各种生产环境。
----版本更新快。通常情况,比如CDH每个季度会有一个update,每一年会有一个release。
----基于稳定版本Apache Hadoop,并应用了最新Bug修复或Feature的patch
----提供了部署、安装、配置工具,大大提高了集群部署的效率,可以在几个小时内部署好集群。
----运维简单。提供了管理、监控、诊断、配置修改的工具,管理配置方便,定位问题快速、准确,使运维工作简单,有效。

缺点:
----涉及到厂商锁定的问题。(可以通过技术解决)

三、第三方发行版本的比较

Cloudera:最成型的发行版本,拥有最多的部署案例。提供强大的部署、管理和监控工具。Cloudera开发并贡献了可实时处理大数据的Impala项目。
Hortonworks:不拥有任何私有(非开源)修改地使用了100%开源Apache Hadoop的唯一提供商。Hortonworks是第一家使用了Apache HCatalog的元数据服务特性的提供商。并且,它们的Stinger开创性地极大地优化了Hive项目。Hortonworks为入门提供了一个非常好的,易于使用的沙盒。Hortonworks开发了很多增强特性并提交至核心主干,这使得Apache Hadoop能够在包括Windows Server和Windows Azure在内的Microsft Windows平台上本地运行。

四、CDH,Apache Hadoop,HDP的比较

Apache Hadoop CDH HDP
管理工具 手工 Cloudera Manager Ambari
收费情况 开源 社区版免费,企业版收费 免费

转载于:https://www.cnblogs.com/yuuken/p/10987225.html

CDH,HDP,Apache Hadoop之间的关系相关推荐

  1. 大讲台浅谈大数据与Hadoop之间的关系

    在现如今,随着面对当前企业级用户对于自建数据中心兴趣的不断扩大,以及大数据正在以惊人的速度增长几乎触及各行各业,而大数据是一种新兴的数据挖掘技术,它正在让数据处理和分析变得更便宜更快速.大数据技术一旦 ...

  2. 大数据与Hadoop之间是什么关系

    广义上讲 大数据是时代发展和技术进步的产物.Hadoop只是一种处理大数据的技术手段. "大数据"概念在1980年由维克托·迈尔-舍恩伯格及肯尼斯·库克耶 在<第三次浪潮&g ...

  3. Cloudera的CDH和Apache的Hadoop的区别

    Cloudera的CDH和Apache的Hadoop的区别 目前而言,不收费的Hadoop版本主要有三个(均是国外厂商),分别是:Apache(最原始的版本,所有发行版均基于这个版本进行改进).Clo ...

  4. Hadoop版本:CDH, HDP, MapR

    Hadoop版本:CDH, HDP, MapR 学习了:http://dongxicheng.org/mapreduce-nextgen/hadoop-distribution-selection/ ...

  5. 零基础学习PHP编程——详解Apache、PHP和Mysql之间的关系

    详解Apache.PHP和Mysql之间的关系 注意: 本文主要写给基础薄弱的同学, 如有不当之处,还请指正. 访问源站 原创不易,转载请注明 欢迎交流: 640765823  学习方法 弄清楚Apa ...

  6. CDH/HDP迁移之路

    哪些用户需要迁移? 原社区版用户 社区版不再更新 Cloudera(Cloudera 和Hortonworks 合并后)所有产品不再提供社区版,用户无法获取新的功能. 社区版不再免费 2021年1月3 ...

  7. 适用于Apache Hadoop 2.0 M5的Spring

    Spring高兴地宣布了Spring for Apache Hadoop 2.0 M5里程碑版本,同时它们也越来越接近候选版本. 在Spring博客中 ,新版本2.0与1.0版本之间有很好的比较. 根 ...

  8. 【阿里云 CDP 公开课】 第二讲:CDH/HDP 何去何从

    简介:Hadoop社区版CDH/HDP已经不再更新,也将终止服务.后续的平台路线图怎么规划?Cloudera CDP整合了CDH和HDP,有哪些性能提升和功能增强?如何平滑的进行迁移?本文结合CDH/ ...

  9. hdp对应hadoop的版本_好程序员大数据学习路线分享hadoop的知识总结

    大数据学习路线分享hadoop的知识总结,Hadoop的背景:原生公司是apache, cdh的cloudar公司,hortworks公司提供hdp. 其中apache的发行版本大致有1.x ,2.x ...

  10. Apache Hadoop YARN:另一个资源协调者

    文章目录 摘要 1. 引言 2. 历史和基本原理 2.1 专用集群的时代 2.2 Hadoop on Demand的缺点 2.3 共享集群 3. 架构 3.1 概述 3.2 Resource Mana ...

最新文章

  1. 2022-2028年中国商业综合体行业市场前瞻与投资规划分析报告
  2. Python正则表达式,看这一篇就够了
  3. python对象编程例子-python 面向对象编程 类和实例
  4. 在Silverlight中读取指定URL图片包数据
  5. BZOJ5379: Tree
  6. VQEG(视频质量专家组)
  7. Spark _07_补充部分算子【二】
  8. 时间序列研(part7)--单位根检验
  9. multipartfile 获取音频时长_抖音音频下载捷径:一键提取音频,安卓+ios全通用,完全免费...
  10. Windows下配置Mysql免安装版
  11. J - DNA Consensus String
  12. 高分屏更改Adobe Premier CC UI界面字体大小
  13. 最新传奇游戏公司网站模板源码+带手机端/易优CMS内核
  14. IsPostBack
  15. 技巧分享-电脑版微信如何登录多个账号
  16. 2. Instructions: Language of the computer
  17. 人口会一直增长下去吗_现在世界人口约多少亿 世界人口会一直增加吗还是越来越少...
  18. HTB靶场系列 Windows靶机 Optimum靶机
  19. matlab做TSP,MATLAB TSP问题
  20. 【开发工具】 Office Tool Plus 居然也可以部署 Office 365 我的天 真的是太厉害了

热门文章

  1. 每天一个设计模式之订阅-发布模式
  2. 11.并发编程--同步类容器和并发类容器
  3. [20180423]表空间闪回与snapshot standby
  4. Oracle系列:(22)视图
  5. 大数据实验室(大数据基础培训)——Kafka的安装、配置及基础使用
  6. 防止 7-Zip 生成的 ZIP 文件在 Mac OS X 下出现乱码
  7. 修改MFC标题栏上的图标和修改MFC窗口标题(转)
  8. SharePoint:扩展DVWP - 第4部分:将DVWP操作链接转为按钮
  9. RabbitMQ 中的 7 种队列模式,写得太好了!
  10. 2017 年最受欢迎的 10个编程挑战网站