作者:明哥 来源:明哥的IT随笔

编辑:数据一哥

全文共2988个字,建议8分阅读

01

Ambari 正式退役

正所谓几家欢乐几家愁,2022 年初,又一款顶级 Apache 大数据项目,正式宣告退役:Apache Ambari 于 2022-01 悄然宣布,项目不再维护,正式进入退役阶段!

image

笔者听闻该消息,恰逢虎年春节之际,虽然对 Ambari 的退役早有预期,但由于早年与 Ambari 颇有渊源,还是不免唏嘘一场!

所以谨以一篇博文,纪念下 Apache Ambari!

02

忆 Ambari 往昔

遥想当年,大概 2015 年初,大数据三驾马车(Cloudera,Hortonworks,MapR)正值春风得意,Ambari 作为市面上唯一的开源的大数据集群管理系统,其开源社区相当活跃,市面上的应用者也很多,很多公司都基于开源的 Ambari 进行二次开发构建自己的大数据平台,Hortonworks 更是将 Ambari 作为其大数据平台 HDP (Hortonworks Data Platform) 内置的大数据集群管理系统,其市场占用率不可谓不高!

遥想当年,大概 2015年初,笔者刚刚转行进入大数据领域,获得的第一个大数据相关证书 HDPCA (Hortonworks Data Platform Cluster Administrator),其在线考试,底层对大数据集群的操作,都是通过 Ambari来进行的,对 Ambari 的运维管理不可谓不熟悉!

可是时过境迁,短短六七年时间,Ambari 就从当初的鼎盛时期,走到了今天退役的境地!真是沧海桑田,花无百日红呀!

这背后的原因:

  • IT 市场大环境变化的影响:随着IT 生态大环境的变化,尤其是云计算的突起,市场竞争愈加激烈,Cloudera 不得不改变市场策略,于2019年1月与 Hortonworks 进行了合并;另一驾马车MapR,也被笔者曾经的东家 HPE 于2019年8月收购;

  • 有科技大公司产品策略调整的直接影响:Cloudera 与 Hortonworks 合并后,逐步摒弃了 HDP 与 CDH 大数据平台,推出了 CDP 大数据平台;并在底层的大数据集群管理系统上,摒弃了 Ambari,主推原 CDH 底层的 Cloudera Manager;

  • 更有开源社区宣传和运营的问题:Ambari作为一款优秀的开源大数据管理系统,时至今日,仍有不少公司的大数据平台是基于其开源版本二开构建的,正所谓酒香也怕巷子深,如果 Ambari 社区有着良好的宣传和运营,如果基于 Ambari 二开的公司能更主动地秉承开源精神回馈社区,相信即使 Cloudera 做了了上述调整,Ambari项目也不至于退役。

03

Ambari 回顾介绍

  • Apache Ambari 提供了一系列工具软件,辅助集群管理员,进行集群搭建/集群管理/集群监控,从而使得大数据集群的运维管理更简单易捷;

  • 除了提供基于浏览器的 WEB-UI 方便运维人员对集群进行运维管理外,Ambari 也提供了一系列 REST APIs, 方便应用开发人员与系统集成人员,将集群搭建/集群管理/集群监控功能,提成到应用系统中;

  • Apache Ambari 创建于 2013-11,其最新版本,也是最后一个版本,是 Ambari 2.7.6,发布于 2021-11月;

Ambari 的功能概括如下:

  • 辅助集群搭建:Provision a Hadoop Cluster:Ambari provides an easy-to-use, step-by-step wizard for installing Hadoop services across any number of hosts.Ambari handles configuration of Hadoop services for the cluster.

  • 辅助集群运维管理:Manage a Hadoop Cluster:Ambari provides central management for starting, stopping, and reconfiguring Hadoop services across the entire cluster.

  • 辅助集群监控:Monitor a Hadoop Cluster:Ambari provides a dashboard for monitoring health and status of the Hadoop cluster.Ambari will send emails when your attention is needed (e.g., a node goes down, remaining disk space is low, etc).

image

04

最近退役的顶级大数据项目

回顾盘点下,近几年退役的顶级 Apache 大数据项目,笔者使用过的/关注比较多的,主要有:

  • Ambari: 如上文所述,Ambari 于2022年1月正式退役;

  • Sentry:Sentry 对大数据 HADOOP 集群中的数据和元数据提供了细粒度的授权管理(即安全3A+1E中的 Authorization),sentry 于 2020-12正式退役;

  • Sqoop:Sqoop 在大数据集群 HADOOP 和关系型数据库 RDBMS 之间,提供了高效的大批量数据同步功能(Bulk Data Transfer) ,sqoop 于 2021-06正式退役.

05项目退役后怎么办

首先大家要明白“项目退役”的含义:

  • 某个 Apache 项目退役了,就代表背后的 Apache 开源社区不再维护该项目,也就是说,Apache官方不会再推出该项目的新版本(包括BUG修复版本);

  • 但该项目的官方网站(一般是 xxx.apache.org),源码包(可以通过github/maven仓库获取),二进制包(可以通过官方网站/github/maven 仓库获取),问题追踪系统(一般是JIRA系统或github issues)等,一般都还是可用的;

所以短期来讲,项目中正在使用的开源组件退役后,用户仍然可以正常获取该组件的源码包和二进制包,仍然可以正常使用,几乎不受影响;对于代码能力比较强有二次开发能力的大公司,很多都会基于开源版本fork自己的新分支并维护在自己的代码库中,其影响更是有限。

已经退役的开源组件,Apache 官方不会再维护该项目,也就是说不会出新版本和新特性,对后续陆续发现的BUG也不会出修复版本,所以虽然该组件仍可以正常使用,但由于不能复用其背后开源社区的力量,所以长期来讲,一般都会重新进行技术选型,寻找替代品,在新产品新项目中切换使用新组件,在旧产品旧项目中逐步淘汰替换旧组件。

针对上面提到的3个项目具体来讲:

  • sentry: 可以考虑使用 ranger 替代(CDP中内置的就是 ranger 而不再是 sentry);

  • sqoop: 可以考虑使用 datax/sparksql/kafka-connect/seatunnel/flink-cdc 等替代;

  • ambari: 目前来看,没有替代品,只能切换使用cdp等大数据平台(当然底层是cloudera-manager),或自己fork开源ambari二开维护了;

06

结语

开源不易!

希望大家使用开源项目的同时要不断的回馈社区,只有社区活跃了,项目才能真正的"发扬光大”!

再次心痛+1

致敬 Apache Sqoop

如何参与一个Apache开源项目

基于Ambari的大数据平台搭建

  

关注不迷路~ 各种福利、资源定期分享

2022年首个退役的Apahce大数据项目相关推荐

  1. 2022年首届“钉钉杯”大学生大数据挑战赛初赛题目

    初赛 A:银行卡电信诈骗危险预测  一.问题背景:  数字支付正在发展,但网络犯罪也在发展.电信诈骗案件持续高发,消费者 受损比例持续走高.报告显示,64%的被调查者曾使用手机号码同时注册多个账户,包 ...

  2. 首个融媒体与大数据研究中心落户中国人民大学

    围绕大数据助力融媒体发展这一主题,与会者参与讨论.举办者供图 中新网北京1月22日电 首个融媒体与大数据研究中心22日在中国人民大学举行挂牌仪式.中国人民大学文化产业研究院执行院长曾繁文表示,融媒体与 ...

  3. informatica数据脱敏_助您首个大数据项目破茧成蝶的实践指南

    自从本世纪初软件应用开始在整个业务流程中盛行以来,一个不争的事实就是:数据改变了我们的工作方式.越来越多的企业认识到必须在大数据方面有所作为,但他们却并未切实规划出如何开展这项工作.而调查发现,切实展 ...

  4. 大数据项目中的QA需要迎接新的挑战

    大数据项目中的QA需要迎接新的挑战 根据IDC全球半年度大数据和分析支出指南的最新预测,到2022年全球大数据和业务分析解决方案的收入将达到2600亿美元.在大数据和业务分析解决方案上投资增长最快的行 ...

  5. print的describe的展示全部数据_大数据项目中的QA需要迎接新的挑战

    根据IDC全球半年度大数据和分析支出指南的最新预测,到2022年全球大数据和业务分析解决方案的收入将达到2600亿美元.在大数据和业务分析解决方案上投资增长最快的行业包括银行(复合年增长率13.3%) ...

  6. 大数据项目 --- 电商数仓(一)

    这个项目实在数据采集基础使用的,需要提前复习之前学的东西,否则的话就是很难继续学习.详见博客数据项目一 ---数据采集项目.大数据项目 --- 数据采集项目_YllasdW的博客-CSDN博客大数据第 ...

  7. 客快物流大数据项目(四):大数据项目为什么使用Docker

    目录 大数据项目为什么使用Docker 一.场景一 二.场景二

  8. 华大基因回复深交所:“14万中国人基因大数据”项目与外方机构无关

    华大基因表示,这一项目由中国科研团队在境内完成,且并无个人隐私泄露风险. 上周,国家科技部公布了一份于2015年发出的行政处罚书,华大基因子公司深圳华大基因科技服务有限公司(以下简称"华大科 ...

  9. 多数大数据项目都以失败而告终的原因

    多数大数据项目都以失败而告终的原因 摘要:核心提示:几乎每个人的心目中,大数据就是企业IT部门的大大小小的结构化和非结构化数据,而且其量正在成倍的增长. [...] 核心提示:几乎每个人的心目中,大数 ...

最新文章

  1. Discuz! member.php xss bug
  2. 金属表面划痕检测Halcon
  3. SpringMVC+HibernateValidator,配置在properties文件中的错误信息回显前端页面出现中文乱码
  4. java interface泛型_java – 使用泛型和接口实现组合
  5. 常用的机器学习数据挖掘知识点【转】
  6. 18.requests
  7. 产品经理的高薪会持续嘛?
  8. 9.7 LSMW程序导出/导入操作手册-录屏
  9. 问题 G: 筛选素数
  10. 解析vue-ssr构建流程
  11. 【路径规划】基于matlab自动化拣货最优路径【含Matlab源码 1713期】
  12. WP7 手机软件纪念 - 稍后读软件
  13. Windows文件所有者恢复TrustedInstaller权限
  14. 线段树--暴力修改专题浅谈
  15. Guava限流器RateLimiter
  16. 数据增强方法——Back translations(反向翻译)
  17. SQL视图是什么?视图的作用,视图可以更改么?
  18. 8.8 json和文件操作
  19. 数组截取方法-Arrays.copyOfRange()详解
  20. FleaPHP 开发指南 - 6. 访问数据库

热门文章

  1. 互联网加比赛“潜规则”,你知道多少?干货满满,说一说亲身经历
  2. 韩信点兵(hanxin)
  3. 1075 习题5-3-4 求最小公倍数
  4. MySQL 1075错误
  5. 微软的技术,直接颠覆了我对听书这件事的看法
  6. 面向考试数据库—单表查询(包含建表数据)
  7. Oracle的默认用户和密码
  8. Oracle即将删除 Applet 插件
  9. 安装ubuntu12.04之后的一些优化教程
  10. 喜欢最新电子产品的人