Hadoop生态系统简介

Hadoop生态系统主要包括：Hive、HBase、Pig、Sqoop、Flume、ZooKeeper、Mahout、Spark、Storm、Shark、Phoenix、Tez、Ambari。

Hive：用于Hadoop的一个数据仓库系统，它提供了类似于SQL的查询语言，通过使用该语言可以方便地进行数据汇总，特定查询以及分析存放在Hadoop兼容文件系统中的大数据。

HBase：一种分布的、可伸缩的、大数据存储库，支持随机、实时读/写访问。

Pig：分析大数据集的一个平台，该平台由一种表达数据分析程序的高级语言和对这些程序进行评估的基础设施一起组成。

Sqoop：为高效传输批量数据而设计的一种工具，用于Apache Hadoop和结构化数据存储库如关系型数据库之间的数据传输。

Flume：一种分布式的、可靠的、可用的服务，其用于高效搜集、汇总、移动大量日志数据。

ZooKeeper：一种集中服务，用于维护配置信息，命名，提供分布式同步，以及提供分组服务。

Mahout：一种基于Hadoop的机器学习和数据挖掘的分布式计算框架算法集，实现了多种MapReduce模式的数据挖掘算法。

Spark：一个开源数据分析集群计算框架，最初由加州大学伯克利分校AMPLab开发，建立于HDFS之上。Spark与Hadoop一样用于构建大规模、低延时的数据分析应用。采用Scala语言实现，使用Scala作为应用框架。

Storm：一个分布式的、容错的实时计算系统，有BackType开发，后被Twitter收购。Storm属于流处理平台，多用于实时计算并更新数据库。Storm也可以用于“连续计算”（continuous computation），对数据流做连续查询，在计算时就将结果以流的形式输出给用户。它还可以用于“分布式RPC”，以并行的方式运行大型的运算。

Shark：即Hive on Spark，一个专门为Spark打造的大规模数据仓库系统，兼容Apache Hive。无需修改现有的数据或者查询，就可以用100倍的速度执行Hive QL。Shark支持Hive查询语言、元存储、序列化格式及自定义函数，与现有Hive部署无缝集成，是一个更快、更强大的替代方案。

Phoenix：一个构建在Apache HBase之上的SQL中间层，完全使用Java编写，提供了一个客户端可嵌入的JDBC驱动。Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan，并编排执行以生成标准的JDBC结果集。直接使用HBase API、协同处理器与自定义过滤器，对于简单查询来说，其性能量级是毫秒，对于百万级别的行数来说，其性能量级是秒。

Tez：一个基于Hadoop YARN之上的DAG（有向无环图，Directed Acyclic Graph）计算框架。它把Map/Reduce过程拆分为若干个子过程，同时可以把多个Map/Reduce任务组合成一个较大的DAG任务，减少了Map/Reduce之间的文件存储。同时合理组合其子过程，减少任务的运行时间。

Ambari：一个供应、管理和监视Apache Hadoop集群的开源框架，它提供了一个直观的操作工具和一个健壮的Hadoop API，可以隐藏复杂的Hadoop操作，使集群操作大大简化。

Hadoop生态系统简介相关推荐

Hadoop回顾:(一)Hadoop生态系统简介
首先我们先了解一下Hadoop的起源.然后介绍一些关于Hadoop生态系统中的具体工具的使用方法.如:HDFS.MapReduce.Yarn.Zookeeper.Hive.HBase.Oozie.Ma ...
【大数据】Hadoop生态系统及其组件
Hadoop 生态系统及其组件 1.Hadoop 生态系统的组成本篇文章将向大家介绍 Hadoop 生态系统的不同组件.也正是因为这些组件,使得 Hadoop 如此强大.通过学习 HDFS 和 HD ...
Hadoop生态系统的详细介绍
hadoop生态系统的详细介绍简介 Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算.今 ...
hadoop生态系统的详细介绍-详细一点
前提日常喜欢看一些微信分享的好文,总结下来,可以作为过滤器吧(节约更多人的时间!),在这里引用的是别人的文章!对原文的作者表示感谢!确实写的很好! hadoop生态系统的详细介绍简介 Hadoop ...
Hadoop起源简介
Hadoop简介百度百科是这样介绍Hadoop的: Hadoop是一个由Apache基金会所开发的分布式系统基础架构.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力进行高 ...
大数据概况及Hadoop生态系统总结
觉得有帮助的,请多多支持博主,点赞关注哦~ 文章目录大数据概况及Hadoop生态系统 1.大数据概念理解 1.1.什么是大数据? 1.2.大数据特征(4V)? 1.3.大数据应用场景? 1.4.大数 ...
Hadoop 生态系统
当下 Hadoop 已经成长为一个庞大的生态体系,只要和海量数据相关的领域,都有 Hadoop 的身影.下图是一个 Hadoop 生态系统的图谱,详细列举了在 Hadoop 这个生态系统中出现的各种数 ...
BigData之Hadoop：Hadoop的简介、深入理解、下载、案例应用之详细攻略
BigData之Hadoop:Hadoop的简介.深入理解.下载.案例应用之详细攻略目录 Hadoop的简介 1.HDFS体系结构图 Hadoop的深入理解 0.深入了解Hadoop的其它相关基础知 ...
GitChat · 大数据 | 一步一步学习大数据：Hadoop 生态系统与场景
目录(?)[-] Hadoop概要 Hadoop相关组件介绍 HDFS Yarn Hive HBase Spark Other Tools Hadoop集群硬件和拓扑规划硬件配置软件配置 Hado ...

Hadoop生态系统简介

Hadoop生态系统简介相关推荐

最新文章

热门文章