一、什么是Hadoop
### --- Hadoop 是一个适合大数据的分布式存储和计算平台。~~~     如前所述,狭义上说Hadoop就是一个框架平台,
~~~     广义上讲Hadoop代表大数据的一个技术生态圈,包括很多其他软件框架

Hadoop生态圈技术栈
Hadoop(HDFS + MapReduce + Yarn)
Hive 数据仓库工具
HBase 海量列式非关系型数据库
Flume 数据采集工具
Sqoop ETL工具
Kafka 高吞吐消息中间件
......
二、Hadoop的起源

### --- Hadoop 的发展历程可以用如下过程概述:~~~     Nutch —> Google论文(GFS、MapReduce)
~~~     —> Hadoop产生
~~~     —> 成为Apache顶级项目
~~~     —> Cloudera公司成立(Hadoop快速发展)

### --- Hadoop最早起源于Nutch,Nutch 的创始人是Doug Cutting~~~     Nutch 是一个开源 Java 实现的搜索引擎。
~~~     它提供了我们运行自己的搜索引擎所需的全部工具。
~~~     包括全文搜索和Web爬虫,但随着抓取网页数量的增加,
~~~     遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题

### --- 2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。~~~     GFS,可用于处理海量网页的存储;MapReduce,可用于处理海量网页的索引计算问题。
~~~     # Google的三篇论文(三驾马车)
~~~     GFS:Google的分布式文件系统(Google File System)
~~~     MapReduce:Google的分布式计算框架
~~~     BigTable:大型分布式数据库
~~~     # 发展演变关系:
~~~     GFS —> HDFS
~~~     Google MapReduce —> Hadoop MapReduce
~~~     BigTable —> HBase

~~~     随后,Google公布了部分GFS和MapReduce思想的细节,
~~~     Doug Cutting等人用2年的业余时间实现了DFS和MapReduce机制,使Nutch性能飙升。
~~~     2005年,Hadoop 作为Lucene的子项目Nutch的一部分引入Apache
~~~     2006年,Hadoop从Nutch剥离出来独立
~~~     2008年,Hadoop成为Apache的顶级项目
~~~     Hadoop这个名字来源于Hadoop之父Doug Cutting儿子的毛绒玩具象

三、Hadoop特点

四、Hadoop发行版本

~~~     # 目前Hadoop发行版非常多,有Cloudera发行版(CDH)、Hortonworks发行版、
~~~     华为发行版、Intel发行版等,所有这些发行版均是基于Apache Hadoop衍生出来的,
~~~     之所以有这么多的版本,是由Apache Hadoop的开源协议决定的(
~~~     任何人可以对其进行修改,并作为开源或商业产品发布/销售)。
~~~     # 企业中主要用到的三个版本分别是:Apache Hadoop版本(最原始的,
~~~     所有发行版均基于这个版本进行改进)、Cloudera版本(Cloudera’s
~~~     Distribution Including Apache Hadoop,简称“CDH”)、
~~~     Hortonworks版本(Hortonworks Data Platform,简称“HDP”)。

### --- Apache Hadoop 原始版本~~~     官网地址:http://hadoop.apache.org/
~~~     优点:拥有全世界的开源贡献,代码更新版本比较快
~~~     缺点:版本的升级,版本的维护,以及版本之间的兼容性,学习非常方便
~~~     Apache所有软件的下载地址(包括各种历史版本):http://archive.apache.org/dist/

### --- 软件收费版本ClouderaManager CDH版本 --生产环境使用~~~     官网地址:https://www.cloudera.com/
~~~     Cloudera主要是美国一家大数据公司在Apache开源Hadoop的版本上,
~~~     通过自己公司内部的各种补丁,实现版本之间的稳定运行,
~~~     大数据生态圈的各个版本的软件都提供了对应的版本,解决了版本的升级困难,
~~~     版本兼容性等各种问题,生产环境强烈推荐使用

### --- 免费开源版本HortonWorks HDP版本--生产环境使用~~~     官网地址:https://hortonworks.com/
~~~     hortonworks主要是雅虎主导Hadoop开发的副总裁,
~~~     带领二十几个核心成员成立Hortonworks,核心产品软件HDP(ambari),
~~~     HDF免费开源,并且提供一整套的web管理界面,
~~~     供我们可以通过web界面管理我们的集群状态,
~~~     web管理界面软件HDF网址(http://ambari.apache.org/)

五、Apache Hadoop版本更迭
### --- Apache Hadoop版本更迭~~~     0.x 系列版本:Hadoop当中最早的一个开源版本,在此基础上演变而来的1.x以及2.x的版本
~~~     1.x 版本系列:Hadoop版本当中的第二代开源版本,主要修复0.x版本的一些bug等
~~~     2.x 版本系列:架构产生重大变化,引入了yarn平台等许多新特性
~~~     3.x 版本系列:EC技术、YARN的时间轴服务等新特性

六、Hadoop优缺点

### --- Hadoop的优点~~~     Hadoop具有存储和处理数据能力的高可靠性。
~~~     Hadoop通过可用的计算机集群分配数据,完成存储和计算任务,这些集群可以方便地扩展到数以千计的节点中,具有高扩展性。
~~~     Hadoop能够在节点之间进行动态地移动数据,并保证各个节点的动态平衡,处理速度非常快,具有高效性。
~~~     Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配,具有高容错性。

### --- Hadoop的缺点~~~     Hadoop不适用于低延迟数据访问。
~~~     Hadoop不能高效存储大量小文件。
~~~     Hadoop不支持多用户写入并任意修改文件。


Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of life.It sinks, and I am ready to depart
——W.S.Landor

|NO.Z.00005|——————————|BigDataEnd|——|HadoopHadoop核心框架.V05|——|Hadoop.v04|分布式集群搭建|...相关推荐

  1. Hadoop框架:单服务下伪分布式集群搭建

    本文源码:GitHub·点这里 || GitEE·点这里 一.基础环境 1.环境版本 环境:centos7 hadoop版本:2.7.2 jdk版本:1.8 2.Hadoop目录结构 bin目录:存放 ...

  2. 实时计算框架:Flink集群搭建与运行机制

    一.Flink概述 1.基础简介 Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算.Flink被设计在所有常见的集群环境中运行,以内存执行速度和任意规模来执行计算.主要特性包 ...

  3. 百度开源联邦学习框架 PaddleFL:简化大规模分布式集群部署

    百度开源联邦学习框架 PaddleFL:简化大规模分布式集群部署 作者 | 钰莹近两年,联邦学习技术发展迅速.作为分布式的机器学习范式,联邦学习能够有效解决数据孤岛问题,让参与方在不共享数据的基础上联 ...

  4. 基于slurm框架的GPU服务器集群搭建方法

    基于slurm框架的GPU服务器集群搭建操作文档 1. 环境基础 2. 环境配置 2.1 hostname配置 2.2 关闭SELinux (master, slave) 2.3 关闭Firewall ...

  5. 利用ZooKeeper框架在Vmware虚拟机中搭建3台Linux分布式集群

    利用ZooKeeper框架在Vmware虚拟机中搭建3台Linux分布式集群 概述 配置 具体步骤 node1虚拟机制作 安装及固定IP 关闭防火墙 JDK安装 关闭SELinux 虚拟机克隆 固定I ...

  6. Redis集群运维与核心原理(哨兵选举、集群选举等)剖析

    1.Redis集群方案比较 哨兵模式 高可用集群模式 redis集群是一个由多个主从节点群组成的分布式服务器群,它具有复制.高可用和分片特性.Redis集群不需要 sentinel哨兵也能完成节点移除 ...

  7. spring cloud多模块项目框架搭建-Redis-Cluster集群搭建及系统集成

    第九章 Redis-Cluster集群搭建及系统集成 本系列博客旨在搭建一套能用于实际开发使用的spring cloud多模块微服务项目框架,并不是一个spring cloud的demo而已,提供系统 ...

  8. day68_淘淘商城项目_01_电商介绍 + 互联网术语 + SOA + 分布式 + 集群介绍 + 环境配置 + 框架搭建_匠心笔记

    淘淘商城项目_01 1.电商行业的背景介绍--电子商务 1.1.11.11 1.2.电商行业技术特点 2.淘淘商城的系统架构 2.1.淘淘商城介绍 2.2.功能介绍 2.3.系统架构 2.3.1.传统 ...

  9. python分布式集群ray_取代Python多进程!伯克利开源分布式框架Ray

    AI 前线导读:Ray 由伯克利开源,是一个用于并行计算和分布式 Python 开发的开源项目.本文将介绍如何使用 Ray 轻松构建可从笔记本电脑扩展到大型集群的应用程序. 更多优质内容请关注微信公众 ...

最新文章

  1. 晶振噪声及杂散_如何判断是否需要使用分立式晶振和振荡器呢?
  2. openstack rootwrap详解
  3. 生产环境子域降级记录
  4. [云炬创业管理笔记]第一章测试1
  5. 最长递增子序列的个数Python解法
  6. 推荐華麗の真実的小说《The★Sakuray》
  7. 从前端到后台,开发一个完整功能的小程序
  8. 史上最全的微信小程序代码大全分享
  9. PHP打印九九乘法表
  10. itunes store服务中断_Apple目前正在经历App Store iTunes Store和Mac App Store的中断
  11. Tesla又撞,能上天的马斯克,自动驾驶为何只有如此水准
  12. 2021-08-22
  13. 使用spilt截取文件名后缀时出现的问题
  14. 脉冲计数器校准配置方案
  15. if 嵌套if 多重if结构
  16. npm run build: rimraf: command not found
  17. 什么是四种七和弦 和三种转位
  18. appnode怎么样_Linux面板AppNode免费开放使用,你还在用宝塔吗? - 立金哥
  19. colorFormat颜色转换插件
  20. Python知道cos值求角度_机械臂正运动学-DH参数-Python快速实现

热门文章

  1. mysql报错502_php报错502badgateway怎么解决
  2. ubuntu测试网速
  3. wireshark常用协议过滤
  4. 分享10个优质的Java练手项目
  5. 计算机音乐数字乐谱加勒比海盗,Jarrod Radnich原版《加勒比海盗》主题曲钢琴谱...
  6. 无人机加速度计读数的正负判断(MPU6050正常放置情况下)
  7. sumo学习——sumo介绍及安装
  8. Rational RUP 介绍
  9. 中国公共NTP服务器
  10. 你知道自己的电脑感染了恶意软件吗?