在前两篇文章中,我们介绍了Hadoop集群部署的3个方式,即《存储/计算绑定和单一计算的Hadoop集群》,《存储/计算分离的Hadoop集群部署》。本文我们着重讲解最后一种方式,即构建自定义的Hadoop集群,作为对用户更为开放的一个部署选项。

自定制集群(Customcluster)

在复杂的业务背景下,往往某一种特定模型无法满足需求。比如,公司三个部门A、B、C,分别需要自建Hadoop集群,但是他们需要消费相同的数据。三个部门对Hadoop集群的资源要求(CPU、内存、存储)存在不同需求,且大多数情况下他们对Hadoop使用不在同一时间:A部门主要于凌晨至早六点,运行每日例行任务;B部门需要在下午四点至夜间十点左右运行查询处理任务,对实时性要求相对比较高;C部门需要在大部分的白天时段运行一些研究、开发和测试的任务。如何有效利用硬件服务器资源成为该公司IT部门重点考虑的问题。

如下图所示,如果不采用虚拟化技术进行整合,资金投入(CAPEX)意味着每个集群最大负载时硬件投资总和。但是通过整合,可以将三个集群共享资源池,CAPEX意味着通盘最大负载。而且目前虚拟化可以带来2:1到4:1的整合比,极大的减少了资本投入。

根据三个部门的需求,我们搭建统一的一套HDFS存储集群,分别为三个计算集群提供存储服务。这样避免了搭建三个存储集群所引发的跨网络的大量数据迁移和拷贝工作,让需要维护的存储集群从三个减少到一个,从而减少操作成本OPEX,也节省了原来需要采买大量存储器的资本投入CAPEX。另外,由于B部门对时间延迟要求高,我们将其搭建成具有虚拟化节点感知的满足数据本地性要求的计算集群(具体方法请参见本博客“包含节点网络拓扑和主机排布策略的存储/计算分离模型”)。另外A、C部门的集群搭建成单一计算节点集群,并指向上述统一的HDFS集群。这样搭建,就保证了不同计算集群之间的资源隔离、故障隔离、配置隔离和安全隔离。

当然您也可以根据您的具体业务需求,将Hadoop集群和其他应用一并整合。

注:本文所使用的所有集群定义文件和命令都基于BDE1.0 GA Build。

如有任何问题,您可以发邮件至bigdata_apac@vmware.com。

关于vSphere Big Data Extensions:

VMware vSphere Big Data Extensions(简称BDE)基于vSphere平台支持大数据和Apache Hadoop作业。BDE以开源Serengeti项目为基础,为企业级用户提供一系列整合的管理工具,通过在vSphere上虚拟化Apache Hadoop,帮助用户在基础设施上实现灵活、弹性、安全和快捷的大数据部署、运行和管理工作。了解更多关于VMware vSphere Big Data Extensions的信息,请参见http://www.vmware.com/hadoop。

作者介绍

张锦波

VMware大数据解决方案工程师

目前负责VMware大数据解决方案的架构和实现,是大数据方面的技术专家。曾担任vSphere Big Data Extensions(BDE)、Serengeti等大数据项目的产品经理,负责集群管理,高可靠性和弹性伸缩等重要功能的规划。在此之前就职于EMC,从事数据库管理等产品的研发工作。

Hadoop集群部署模型纵览3相关推荐

  1. Hadoop集群部署模型纵览1

    vSphere Big Data Extensions(简称BDE)支持多种部署方式来构建Hadoop集群.按: 存储/计算绑定模型:将存储节点(Data Node)和计算节点(Task Tracke ...

  2. 学习笔记Hadoop(五)—— Hadoop集群的安装与部署(2)—— Hadoop集群部署模式、配置固定IP

    一.Hadoop集群部署模式 Hadoop的安装部署的模式一共有三种: 独立模式(本地模式) standalone 默认的模式,无需运行任何守护进程(daemon),所有程序都在单个JVM上执行.由于 ...

  3. Hadoop集群部署权限总结

    这是一篇总结的文章,主要介绍 Hadoop 集群快速部署权限的步骤以及一些注意事项.如果你想了解详细的过程,请参考本博客中其他的文章. 1. 开始之前 hadoop 集群一共有三个节点,每个节点的 i ...

  4. 《实施Cisco统一通信管理器(CIPT1)》一2.5 跨越IP WAN的集群部署模型

    本节书摘来异步社区<实施Cisco统一通信管理器(CIPT1)>一书中的第2章,第2.5节,作者: [美]Dennis Hartmann 译者: 刘丹宁 , 陈国辉 , 卢铭 责编: 傅道 ...

  5. hadoop集群部署

    hadoop简介 Hadoop是一个由Apache基金会所开发的分布式系统基础架构, 是一个存储系统+计算框架的软件框架,主要解决海量数据存储与计算的问题,是大数据技术中的基石. Hadoop以一种可 ...

  6. Hadoop集群部署后相关WEB界面打不开大概原因

    集群部署完毕后,查看相关WEB界面,打不开的原因可能如下: 1.可以先去检查LINUX(CentOS7)机器的防火墙是否关闭,命令如下: systemctl status firewalld.serv ...

  7. 超详细的Hadoop集群部署

    本文建立在已经把虚拟机ip环境等已经下载好情况下. 那么,直接开始今天的正题: 搭建集群 环境准备 这里提供两种思路:一种是将一台直接搭建好,后面的克隆或者copy虚拟机 一种是3台并进,多次进行虚拟 ...

  8. 大数据练习环境部署(3) - Hadoop集群部署

    目录 1. 环境配置 1.1 创建hadoop用户 1.2 修改相关host 1.3 ssh免密登陆 2. JAVA安装 2.1 下载JDK1.8 2.2 解压安装java 2.3 分发到其他节点 2 ...

  9. SPARK安装二:HADOOP集群部署

    一.hadoop下载 使用2.7.6版本,因为公司生产环境是这个版本 cd /opt wget http://mirrors.hust.edu.cn/apache/hadoop/common/hado ...

  10. hadoop集群部署超级详细

    下载地址:http://archive.apache.org/dist/hadoop/core/hadoop-3.2.2/ 版本:3.2.2 文件名:hadoop-3.2.2.tar.gz 服务器信息 ...

最新文章

  1. 使用pickle保存机器学习模型详解及实战(pickle、joblib)
  2. Netty在IDEA中搭建HelloWorld服务端并对Netty执行流程与重要组件进行介绍
  3. mfc 怎样动态设置static text 的可见属性
  4. oracle透明网关 中文,Oracle透明网关的一些文章
  5. java如何驱动z4mplus打印二维码_斑马 Zebra 打印机驱动下载
  6. Bootstrap3 行内文本样式
  7. (2015秋) 软工作业成绩公布
  8. Apache Shiro权限管理框架
  9. libvirt-virsh命令
  10. sql nolock_SQL Server NOLOCK和最佳优化
  11. 两个可用于浏览器兼容性测试的Firefox插件
  12. Spring的 @ExceptionHandler注解无效问题
  13. netfilter源码学习
  14. 对作用域插槽的理解:slot-scope
  15. 质谱流式细胞技术 小笔记
  16. python 谷歌翻译接口_使用python调用谷歌翻译接口实现英文到中文的翻译
  17. 有理数python_1034 有理数四则运算 (20分)(Python)
  18. 打印机十大共性故障解决方法!!!
  19. hihocoder1498 Diligent Robots
  20. 一款综合短网址缩短和还原源码

热门文章

  1. linux平台上不同类型的压缩文件的压缩与解压
  2. 一年多开源没进展,我也放弃了
  3. 龙芯的JDK非常慢,准备分析一下
  4. BAT中cd某个目录时,同时转换盘符
  5. jsweet下载编译
  6. U盘插在前面板不认,可以试试插在后面板
  7. 鸟类的大脑处理数据模式,可以启发CPU/GPU的设计
  8. linux c多线程进度条,Ubuntu 13.04,g++4.7,Pthread实现多线程模拟实现下载进度条
  9. c++代码大全_Javascript 代码是如何被压缩的
  10. 不挂载 组件渲染_12、全局组件和局部组件