hadoop家族成员
Hadoop是Apache开源组织的一个分布式计算开源框架(http://hadoop.apache.org/)
其主要成员为
HDFS
HDFS是一种用于Hadoop应用程序的主存储系统,也是一个高容错性系统,适合部署在廉价机上,同时,HDFS能提高吞吐量的数据访问,非常适合大规模数据集上的应用。
HDFS为了做到可靠性创建了多份数据块的复制,并将它们放置在服务器群的计算节点中,MapReduce就可以在它们所造的几点上处理这些数据了。
HDFS默认的最基本的存储单位是64M的数据块。
HDFS主要由NameNode和DataNode组成, NameNode是HDFS中负责namespace管理的节点,NameNode保存了当前集群中所存储的的所有的文件的元数据信息,NameNode同时与集群中其它的节点通信,以保持元数据与系统中的文件的一致性,同时也和 client通信,以响应client对文件的需要。DataNode是文件系统的工作节点,他们根据客户端或者是DataNode的调度存储和检索数据,并且定期向DataNode发送他们所存储的块(block)的列表。
MapReduce
MapReduce是一种处理海量数据的并行编程模型和计算框架,主要用于大数据集的并行计算。
主要分为两个阶段,分别为
Map阶段:
MapReduce框架将任务的输入分割成固定大小的片段(splites),随后将每个splite进一步分解成一批键值对<K1,V1>。 Hadoop为每个split创建一个Map任务用于执行用户自定义的Map函数,并将对应split中的<K1,V1>对作为输入,得到计算的中间结果<K2,V2>,接着将中间结果按照K2进行排序,并key值相同的value放在一起形成<K2,list(V2)>元组。最后在根据key值的范围进行分组,分配到不同的Reduce任务。
Reduce阶段:
Reducer把从不同Mapper接收来的数据整合在一起并进行排序,然后调用用户自定义的reduce函数,对输入<K2,list(V2)>对进行处理,得到键值对<K3,V3>并输出到HDFS上。job.setNumReduceTask()方法设置reduce数。
Zookeeper
Zookeeper是Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。
Hbase
HBase是Hadoop的数据库。能对大型数据提供随即、实时的读写访问。HBase的目标是存储并处理大型的数据。HBase是一个开源的、分布式的、多版本的、面向列的存储模型。它存储的是松散型数据。
HBase是Google BigTable的开源实现。Google BigTable利用 GFS 作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google 运行 MapReduce来处理BigTable中的海量数据,HBase同样利用Hadoop MapReduce来处理HBase中的海量数据;Google BigTable利用 Chubby作为协同服务,HBase利用Zookeeper作为对应。
Pig
Pig是SQL-like(类SQL)语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。
Hive
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句块快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库。
Chukwa
Chukwa是由Yahoo贡献,基于Hadoop的大集群监控系统,可以用他来分析和收集系统中的数据(日志)。Chukwa运行HDFS中存储数据的收集器和MapReduce框架之上,并继承了Hadoop的可扩展性和鲁棒性,Chukwa使用MapReduce来生成报告,他还包括一个用于监测和分析结果显示的web-portal工具,通过web-portal工具使这个收 集数据的更佳具有灵活性。
hadoop家族成员相关推荐
- hadoop家族的各个成员
这篇文章不提原理,讲讲hadoop及其周边项目的作用. hadoop这个词已经流行好多年了,一提到大数据就会想到hadoop,那么hadoop的作用是什么呢? 官方定义:hadoop是一个开发和执行处 ...
- Hadoop简介和家族成员介绍
本文为博主原创,允许转载,但请声明原文地址:http://www.coselding.cn/article/2016/05/31/Hadoop简介和家族成员介绍/ 1. HDFS:分布式文件系统实现, ...
- Apache Twill:Hadoop家族的最新成员
Continuuity将他们之前在GitHub开源的项目Weave提交到Apache基金会,获得批准成为孵化项目Apache Twill,这是Hadoop家族的最新成员. Twill的目的是在比较底层 ...
- 大数据架构师基础:hadoop家族,Cloudera产品系列等各种技术
大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来.为了能够更好的架构大数据项目,这里整理一下,供技术人员,项目经理,架构师选 ...
- GBDT家族:GBDT家族成员的演进路劲、xgboost模型、lightGBM、LightGBM 相对于 XGBoost 的优点、catboost、xgboost、catboost、lightGBM对
GBDT家族:GBDT家族成员的演进路劲.xgboost模型.lightGBM.LightGBM 相对于 XGBoost 的优点.catboost.xgboost.catboost.lightGBM对 ...
- [转]Hadoop家族学习路线图
Hadoop家族学习路线图 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, ...
- Hadoop家族学习路线图--转载
原文地址:http://blog.fens.me/hadoop-family-roadmap/ Sep 6, 2013 Tags: Hadoophadoop familyroadmap Comment ...
- Hadoop家族学习路线图
Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, ...
- 强制生成32位arm程序_ARM版本系列及家族成员梳理
作者: QLinux 原文: https://www.cnblogs.com/QLinux/articles/2498084.html 本文对ARM处理器家族成员做了个梳理归纳,小编能力有限,不当之处 ...
最新文章
- python--Time(时间)模块
- Apache htaccess的简单总结,以及参数的使用
- apache camel 相关配置_使用apache camel从表中选择数据-问答-阿里云开发者社区-阿里云...
- 图册图册图册图册图册图册
- 换一种方式“写代码 编程序“,为自己的程序生涯找条新路
- CodeForces-748D 贪心
- php7 viewmodel,ViewModel浅析
- python_程序的构成---python工作笔记015
- python 表名代码编码格式_14行代码示例讲解:教你解决python上传图片限制格式问题...
- OS学习笔记32—使用Storyboard实现复杂界面
- Kubernetes 小白学习笔记(12)--搭建一个kubernetes集群-安装dashboard和heapster并验证集群安装结果
- ACM竞赛入门,从零开始
- c语言 自适应模式算术编码,算术压缩论文基于算术编码的数据压缩算法研究与实现.doc...
- 几种高效电路分析方法
- 穿越技术火线,聆听内心声音——暨龙泉第三届IT禅修营
- ggplot2设置坐标轴范围_ggplot2学习笔记之图形排列
- 第五章 站在巨人的肩膀上
- 腾讯qq的授权管理查看页面
- [IDE]webstorm安装并配置sass踩坑(windwos)
- 《炬丰科技-半导体工艺》通过蚀刻技术为LED衬底开发低成本、高通量的硅
热门文章
- ceRNA 调控机制
- 软件测试基础-测试用例设计方法(等价类+边界值)
- 使用Fiddler进行Mock测试
- 私有云搭建远程桌面控制服务
- java之实现歌曲文件剪切操作 (输入输出流)
- 360推出儿童卫士2,硬件细节再更迭
- 崩坏3服务器维护2月8号,崩坏33月5日更新维护时间 崩坏33.8版本更新维护内容
- 小白也能看懂的支付宝支付接口的对接详细步骤
- 史帝奇文旅项目篇——穿越式裸眼3D轨道影院
- 20180416-F · Global Mortality · ggplot2 地图 热力图 条形图 · R 语言数据可视化 案例 源码