|NO.Z.00005|——————————|BigDataEnd|——|HadoopHadoop核心框架.V05|——|Hadoop.v04|分布式集群搭建|...
### --- Hadoop 是一个适合大数据的分布式存储和计算平台。~~~ 如前所述,狭义上说Hadoop就是一个框架平台,
~~~ 广义上讲Hadoop代表大数据的一个技术生态圈,包括很多其他软件框架
Hadoop生态圈技术栈 |
Hadoop(HDFS + MapReduce + Yarn) |
Hive 数据仓库工具 |
HBase 海量列式非关系型数据库 |
Flume 数据采集工具 |
Sqoop ETL工具 |
Kafka 高吞吐消息中间件 |
...... |
### --- Hadoop 的发展历程可以用如下过程概述:~~~ Nutch —> Google论文(GFS、MapReduce)
~~~ —> Hadoop产生
~~~ —> 成为Apache顶级项目
~~~ —> Cloudera公司成立(Hadoop快速发展)
### --- Hadoop最早起源于Nutch,Nutch 的创始人是Doug Cutting~~~ Nutch 是一个开源 Java 实现的搜索引擎。
~~~ 它提供了我们运行自己的搜索引擎所需的全部工具。
~~~ 包括全文搜索和Web爬虫,但随着抓取网页数量的增加,
~~~ 遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题
### --- 2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。~~~ GFS,可用于处理海量网页的存储;MapReduce,可用于处理海量网页的索引计算问题。
~~~ # Google的三篇论文(三驾马车)
~~~ GFS:Google的分布式文件系统(Google File System)
~~~ MapReduce:Google的分布式计算框架
~~~ BigTable:大型分布式数据库
~~~ # 发展演变关系:
~~~ GFS —> HDFS
~~~ Google MapReduce —> Hadoop MapReduce
~~~ BigTable —> HBase
~~~ 随后,Google公布了部分GFS和MapReduce思想的细节,
~~~ Doug Cutting等人用2年的业余时间实现了DFS和MapReduce机制,使Nutch性能飙升。
~~~ 2005年,Hadoop 作为Lucene的子项目Nutch的一部分引入Apache
~~~ 2006年,Hadoop从Nutch剥离出来独立
~~~ 2008年,Hadoop成为Apache的顶级项目
~~~ Hadoop这个名字来源于Hadoop之父Doug Cutting儿子的毛绒玩具象
![](/assets/blank.gif)
![](/assets/blank.gif)
~~~ # 目前Hadoop发行版非常多,有Cloudera发行版(CDH)、Hortonworks发行版、
~~~ 华为发行版、Intel发行版等,所有这些发行版均是基于Apache Hadoop衍生出来的,
~~~ 之所以有这么多的版本,是由Apache Hadoop的开源协议决定的(
~~~ 任何人可以对其进行修改,并作为开源或商业产品发布/销售)。
~~~ # 企业中主要用到的三个版本分别是:Apache Hadoop版本(最原始的,
~~~ 所有发行版均基于这个版本进行改进)、Cloudera版本(Cloudera’s
~~~ Distribution Including Apache Hadoop,简称“CDH”)、
~~~ Hortonworks版本(Hortonworks Data Platform,简称“HDP”)。
### --- Apache Hadoop 原始版本~~~ 官网地址:http://hadoop.apache.org/
~~~ 优点:拥有全世界的开源贡献,代码更新版本比较快
~~~ 缺点:版本的升级,版本的维护,以及版本之间的兼容性,学习非常方便
~~~ Apache所有软件的下载地址(包括各种历史版本):http://archive.apache.org/dist/
### --- 软件收费版本ClouderaManager CDH版本 --生产环境使用~~~ 官网地址:https://www.cloudera.com/
~~~ Cloudera主要是美国一家大数据公司在Apache开源Hadoop的版本上,
~~~ 通过自己公司内部的各种补丁,实现版本之间的稳定运行,
~~~ 大数据生态圈的各个版本的软件都提供了对应的版本,解决了版本的升级困难,
~~~ 版本兼容性等各种问题,生产环境强烈推荐使用
### --- 免费开源版本HortonWorks HDP版本--生产环境使用~~~ 官网地址:https://hortonworks.com/
~~~ hortonworks主要是雅虎主导Hadoop开发的副总裁,
~~~ 带领二十几个核心成员成立Hortonworks,核心产品软件HDP(ambari),
~~~ HDF免费开源,并且提供一整套的web管理界面,
~~~ 供我们可以通过web界面管理我们的集群状态,
~~~ web管理界面软件HDF网址(http://ambari.apache.org/)
### --- Apache Hadoop版本更迭~~~ 0.x 系列版本:Hadoop当中最早的一个开源版本,在此基础上演变而来的1.x以及2.x的版本
~~~ 1.x 版本系列:Hadoop版本当中的第二代开源版本,主要修复0.x版本的一些bug等
~~~ 2.x 版本系列:架构产生重大变化,引入了yarn平台等许多新特性
~~~ 3.x 版本系列:EC技术、YARN的时间轴服务等新特性
![](/assets/blank.gif)
六、Hadoop优缺点
### --- Hadoop的优点~~~ Hadoop具有存储和处理数据能力的高可靠性。
~~~ Hadoop通过可用的计算机集群分配数据,完成存储和计算任务,这些集群可以方便地扩展到数以千计的节点中,具有高扩展性。
~~~ Hadoop能够在节点之间进行动态地移动数据,并保证各个节点的动态平衡,处理速度非常快,具有高效性。
~~~ Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配,具有高容错性。
### --- Hadoop的缺点~~~ Hadoop不适用于低延迟数据访问。
~~~ Hadoop不能高效存储大量小文件。
~~~ Hadoop不支持多用户写入并任意修改文件。
Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of life.It sinks, and I am ready to depart
|NO.Z.00005|——————————|BigDataEnd|——|HadoopHadoop核心框架.V05|——|Hadoop.v04|分布式集群搭建|...相关推荐
- Hadoop框架:单服务下伪分布式集群搭建
本文源码:GitHub·点这里 || GitEE·点这里 一.基础环境 1.环境版本 环境:centos7 hadoop版本:2.7.2 jdk版本:1.8 2.Hadoop目录结构 bin目录:存放 ...
- 实时计算框架:Flink集群搭建与运行机制
一.Flink概述 1.基础简介 Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算.Flink被设计在所有常见的集群环境中运行,以内存执行速度和任意规模来执行计算.主要特性包 ...
- 百度开源联邦学习框架 PaddleFL:简化大规模分布式集群部署
百度开源联邦学习框架 PaddleFL:简化大规模分布式集群部署 作者 | 钰莹近两年,联邦学习技术发展迅速.作为分布式的机器学习范式,联邦学习能够有效解决数据孤岛问题,让参与方在不共享数据的基础上联 ...
- 基于slurm框架的GPU服务器集群搭建方法
基于slurm框架的GPU服务器集群搭建操作文档 1. 环境基础 2. 环境配置 2.1 hostname配置 2.2 关闭SELinux (master, slave) 2.3 关闭Firewall ...
- 利用ZooKeeper框架在Vmware虚拟机中搭建3台Linux分布式集群
利用ZooKeeper框架在Vmware虚拟机中搭建3台Linux分布式集群 概述 配置 具体步骤 node1虚拟机制作 安装及固定IP 关闭防火墙 JDK安装 关闭SELinux 虚拟机克隆 固定I ...
- Redis集群运维与核心原理(哨兵选举、集群选举等)剖析
1.Redis集群方案比较 哨兵模式 高可用集群模式 redis集群是一个由多个主从节点群组成的分布式服务器群,它具有复制.高可用和分片特性.Redis集群不需要 sentinel哨兵也能完成节点移除 ...
- spring cloud多模块项目框架搭建-Redis-Cluster集群搭建及系统集成
第九章 Redis-Cluster集群搭建及系统集成 本系列博客旨在搭建一套能用于实际开发使用的spring cloud多模块微服务项目框架,并不是一个spring cloud的demo而已,提供系统 ...
- day68_淘淘商城项目_01_电商介绍 + 互联网术语 + SOA + 分布式 + 集群介绍 + 环境配置 + 框架搭建_匠心笔记
淘淘商城项目_01 1.电商行业的背景介绍--电子商务 1.1.11.11 1.2.电商行业技术特点 2.淘淘商城的系统架构 2.1.淘淘商城介绍 2.2.功能介绍 2.3.系统架构 2.3.1.传统 ...
- python分布式集群ray_取代Python多进程!伯克利开源分布式框架Ray
AI 前线导读:Ray 由伯克利开源,是一个用于并行计算和分布式 Python 开发的开源项目.本文将介绍如何使用 Ray 轻松构建可从笔记本电脑扩展到大型集群的应用程序. 更多优质内容请关注微信公众 ...
最新文章
- 晶振噪声及杂散_如何判断是否需要使用分立式晶振和振荡器呢?
- openstack rootwrap详解
- 生产环境子域降级记录
- [云炬创业管理笔记]第一章测试1
- 最长递增子序列的个数Python解法
- 推荐華麗の真実的小说《The★Sakuray》
- 从前端到后台,开发一个完整功能的小程序
- 史上最全的微信小程序代码大全分享
- PHP打印九九乘法表
- itunes store服务中断_Apple目前正在经历App Store iTunes Store和Mac App Store的中断
- Tesla又撞,能上天的马斯克,自动驾驶为何只有如此水准
- 2021-08-22
- 使用spilt截取文件名后缀时出现的问题
- 脉冲计数器校准配置方案
- if 嵌套if 多重if结构
- npm run build: rimraf: command not found
- 什么是四种七和弦 和三种转位
- appnode怎么样_Linux面板AppNode免费开放使用,你还在用宝塔吗? - 立金哥
- colorFormat颜色转换插件
- Python知道cos值求角度_机械臂正运动学-DH参数-Python快速实现