Hadoop生态系统主要包括:Hive、HBase、Pig、Sqoop、Flume、ZooKeeper、Mahout、Spark、Storm、Shark、Phoenix、Tez、Ambari。

Hive:用于Hadoop的一个数据仓库系统,它提供了类似于SQL的查询语言,通过使用该语言可以方便地进行数据汇总,特定查询以及分析存放在Hadoop兼容文件系统中的大数据。

HBase:一种分布的、可伸缩的、大数据存储库,支持随机、实时读/写访问。

Pig:分析大数据集的一个平台,该平台由一种表达数据分析程序的高级语言和对这些程序进行评估的基础设施一起组成。

Sqoop:为高效传输批量数据而设计的一种工具,用于Apache Hadoop和结构化数据存储库如关系型数据库之间的数据传输。

Flume:一种分布式的、可靠的、可用的服务,其用于高效搜集、汇总、移动大量日志数据。

ZooKeeper:一种集中服务,用于维护配置信息,命名,提供分布式同步,以及提供分组服务。

Mahout:一种基于Hadoop的机器学习和数据挖掘的分布式计算框架算法集,实现了多种MapReduce模式的数据挖掘算法。

Spark:一个开源数据分析集群计算框架,最初由加州大学伯克利分校AMPLab开发,建立于HDFS之上。Spark与Hadoop一样用于构建大规模、低延时的数据分析应用。采用Scala语言实现,使用Scala作为应用框架。

Storm:一个分布式的、容错的实时计算系统,有BackType开发,后被Twitter收购。Storm属于流处理平台,多用于实时计算并更新数据库。Storm也可以用于“连续计算”(continuous computation),对数据流做连续查询,在计算时就将结果以流的形式输出给用户。它还可以用于“分布式RPC”,以并行的方式运行大型的运算。

Shark:即Hive on Spark,一个专门为Spark打造的大规模数据仓库系统,兼容Apache Hive。无需修改现有的数据或者查询,就可以用100倍的速度执行Hive QL。Shark支持Hive查询语言、元存储、序列化格式及自定义函数,与现有Hive部署无缝集成,是一个更快、更强大的替代方案。

Phoenix:一个构建在Apache HBase之上的SQL中间层,完全使用Java编写,提供了一个客户端可嵌入的JDBC驱动。Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan,并编排执行以生成标准的JDBC结果集。直接使用HBase API、协同处理器与自定义过滤器,对于简单查询来说,其性能量级是毫秒,对于百万级别的行数来说,其性能量级是秒。

Tez:一个基于Hadoop YARN之上的DAG(有向无环图,Directed Acyclic Graph)计算框架。它把Map/Reduce过程拆分为若干个子过程,同时可以把多个Map/Reduce任务组合成一个较大的DAG任务,减少了Map/Reduce之间的文件存储。同时合理组合其子过程,减少任务的运行时间。

Ambari:一个供应、管理和监视Apache Hadoop集群的开源框架,它提供了一个直观的操作工具和一个健壮的Hadoop API,可以隐藏复杂的Hadoop操作,使集群操作大大简化。

Hadoop生态系统简介相关推荐

  1. Hadoop回顾:(一)Hadoop生态系统简介

    首先我们先了解一下Hadoop的起源.然后介绍一些关于Hadoop生态系统中的具体工具的使用方法.如:HDFS.MapReduce.Yarn.Zookeeper.Hive.HBase.Oozie.Ma ...

  2. 【大数据】Hadoop生态系统及其组件

    Hadoop 生态系统及其组件 1.Hadoop 生态系统的组成 本篇文章将向大家介绍 Hadoop 生态系统的不同组件.也正是因为这些组件,使得 Hadoop 如此强大.通过学习 HDFS 和 HD ...

  3. Hadoop生态系统的详细介绍

    hadoop生态系统的详细介绍 简介 Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算.今 ...

  4. hadoop生态系统的详细介绍-详细一点

    前提 日常喜欢看一些微信分享的好文,总结下来,可以作为过滤器吧(节约更多人的时间!),在这里引用的是别人的文章!对原文的作者表示感谢!确实写的很好! hadoop生态系统的详细介绍 简介 Hadoop ...

  5. Hadoop起源简介

    Hadoop简介 百度百科是这样介绍Hadoop的: Hadoop是一个由Apache基金会所开发的分布式系统基础架构.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力进行高 ...

  6. 大数据概况及Hadoop生态系统总结

    觉得有帮助的,请多多支持博主,点赞关注哦~ 文章目录 大数据概况及Hadoop生态系统 1.大数据概念理解 1.1.什么是大数据? 1.2.大数据特征(4V)? 1.3.大数据应用场景? 1.4.大数 ...

  7. Hadoop 生态系统

    当下 Hadoop 已经成长为一个庞大的生态体系,只要和海量数据相关的领域,都有 Hadoop 的身影.下图是一个 Hadoop 生态系统的图谱,详细列举了在 Hadoop 这个生态系统中出现的各种数 ...

  8. BigData之Hadoop:Hadoop的简介、深入理解、下载、案例应用之详细攻略

    BigData之Hadoop:Hadoop的简介.深入理解.下载.案例应用之详细攻略 目录 Hadoop的简介 1.HDFS体系结构图 Hadoop的深入理解 0.深入了解Hadoop的其它相关基础知 ...

  9. GitChat · 大数据 | 一步一步学习大数据:Hadoop 生态系统与场景

    目录(?)[-] Hadoop概要 Hadoop相关组件介绍 HDFS Yarn Hive HBase Spark Other Tools Hadoop集群硬件和拓扑规划 硬件配置 软件配置 Hado ...

最新文章

  1. 成功解决TypeError: slice indices must be integers or None or have an __index__ method
  2. matlab二重定积分_怎样用matlab求二重积分?
  3. 分享Ubuntu 16.04 几个国内更新源
  4. mysql my.cnf 官网_MySQL my.cnf 的配置
  5. saleor的测试用账户地址This value is not valid for the address
  6. webpack.config.js 参数详解
  7. Python_爬虫_案例汇总:
  8. canvas综合应用绘制哆啦A梦
  9. c3p0 服务启动获取连接超时_c3p0获取连接Connection后的Close()---释疑
  10. 在 MAC下安装 Exuberant ctags
  11. Layer单选框非空校验注意
  12. Atitit 理财之道---支出大骗局分析与防范
  13. uniapp使用阿里icon详细步骤
  14. java把date转化成yyyymmdd_jquery 将当前时间转换成yyyymmdd格式的实现方法
  15. jcr多久更新一次_sci分区什么时候更新
  16. Linux基础(8)Linux常用网络命令
  17. 桥接模式 和 中继模式
  18. 超实用的自我规划模型 | 进击
  19. 【CAN】PCAN连线
  20. html标签outclick,vue自定义指令(Directive中的clickoutside.js)的理解

热门文章

  1. 具有多输入的RBF网络和ARMA时序分析联合电力负荷预测
  2. Vue:a标签点击和file-saver实现文件下载
  3. Unity3D学习笔记(十三)导出游戏
  4. 测试用例(边界值法)
  5. Ubuntu16的gtx1070显卡+对应显卡驱动安装(精简版)
  6. 基于机智云物联网平台的智能WiFi插座
  7. c语言 case常量表达式,在switch语句中,每一个case的常量表达式的值必须互不相同。()...
  8. linux测试x11,Linux GUI自动化测试工具x11 GUITest in Linux x86
  9. Android上开发新浪微博OAuth2.0认证
  10. 林俊杰浮亏91%,元宇宙地产究竟有多少泡沫?