Hadoop尽量在计算节点上存数据,以实现数据的快速访问,即数据本地化(data locatily)。

MapReduce 三大设计目标:

1:为只需要短短几分钟或数小时就能完成的任务设计。

2:运行于同一个内部有高速网络连接的数据中心。

3:数据中心的计算机都是可靠的,专门的硬件。

Map任务的三种可能:

a,本地数据,本地运行;

即在存储有输入数据(HDFS中的数据)的节点运行map任务,无需使用宝贵的集群带宽资源,可获得最佳性能(数据本地化优化)。

b,本地节点,本地机架运行;

即存储数据副本的所有机器均有其他map任务未执行完,且当前机架有空闲map槽来运行。

c:本地数据,跨机架运行

即存储数据副本的所有机器均有其他map任务未执行完,且当前机架无空闲map槽来运行,需到其他机架寻找map槽来运行,这将导致机架与机架之间的网络传输。

HDFS:

HDFS以流式数据访问模式来存储超大文件,运行于商用硬件上。

1.超大文件:数百GB,TB,PB级

2.流式数据访问:hdfs构建思路:一次写入,多次读取是最高效的访问模式。

3.商用硬件:即普通商店即可买到的硬件设施。

4.低延时的数据访问:低延时不适用于在HDFS上运行,HDFS是以高数据吞吐量应用优化的,这可能以提高时间延时为代价。低延时HBase是更好的选择。

5.多用户写入,任意修改文件:HDFS只支持单用户以“只添加”的方式在文件末尾写数据,且不支持多用户同时写操作,也不支持在文件任意位置进行修改。

HDFS中的数据块:HDFS文件系统默认块大小128M,但HDFS中小于块大小的文件不会占据整个块空间(如,1M的文件存储在128M块中时,文件只会占用1M的磁盘空间,而非12M)。

Q:HDFS中的块为什么这么大?是不是块越大越好?

A:块大的目的主要是最小化寻址开销,如果块足够大,从磁盘传输数据的时间明显大于寻址时间,因此,传输一个由多个块组成的文件的时间主要取决于磁盘传输速率。寻址时间控制在传输时间的1%为佳。块不是越大越好,如果块设置的过大MapReduce中的Map任务通常只处理一个块中的数据,因此如果任务数太少(少于集群中节点数),作业的运行速率就会比较慢。

分布式文件系统的块抽象的好处:

一:一个文件的大小可以大于网络中任意一个磁盘容量

二:大大简化了存储子系统的设计,如分块数据和元数据管理。

三:非常适用于数据备份进而提供数据容错性和高可用性。

Hadoop权威指南(第4版)笔记一相关推荐

  1. Hadoop权威指南(第三版)笔记——HDFS

    HDFS是Hadoop抽象的文件系统概念的一个实现. 适用场景 适用于大型商用机集群,流式数据访问模式来存储超大文件. 特征 1.超大文件. 2.流式数据访问.HDFS的构建思路是,一次写入,多次读取 ...

  2. Hadoop权威指南(第3版) 修订版(带目录书签) 中文PDF--高清晰

    一.下载地址(永久有效) 百度云盘下载(公开永久):Hadoop权威指南(第3版) 修订版(带目录书签) 中文PDF高清晰 CSDN积分下载:Hadoop权威指南(第3版)+高清晰 二.数据的存储和分 ...

  3. hadoop权威指南第三版 发布说明

    (此文摘自http://hadoopbook.com) hadoop权威指南第三版发行说明: 第三版会在2012年5月发行.你现在可以预定一份电子版,或购买"Early Release&qu ...

  4. Hadoop权威指南(第二版)pdf中文版

    今天终于找到 hadoop权威指南第二版的中文pdf版本了,发给大家共享一下 下载地址:http://dl.dbank.com/c0hh1arjiz ------------------------- ...

  5. 【hadoop权威指南第四版】第六章MR的工作原理【笔记+代码】

    6.1 运行MR作业 工作原理 四大模块: 客户端,提交MR作业. jobtracker,协调作业的运行.jobtracker 是一个java应用程序,主类是Jobtracker. tasktrack ...

  6. 【hadoop权威指南第四版】第七章MR的类型与格式【笔记+代码】

    7.1MR类型 7.2 输入格式 7.2.1输入分片与记录 InputFormat类的层次结构 每一个map操作只处理一个输入分片,并且一个一个地处理每条记录,也就是一个键值对. 在数据库中,一个输入 ...

  7. 【hadoop权威指南第四版】第三章hadoop分布式文件系统【笔记+代码】

    3.1块 显示块信息 % hdfs fsck / -files -blocks 3.5 Java接口 3.5.1从hadoop URL读取数据 使用java.net.URL 对象来打开一个数据流 In ...

  8. 【hadoop权威指南第四版】第五章MR应用【笔记+代码】

    5.1 API的配置 配置文件 <?xml version="1.0"?> <configuration> <property> <nam ...

  9. 读书笔记《Hadoop权威指南第4版(Hadoop The Definitive Guide 4th)》

    Chapter 1 Meet Hadoop Data Storage and Analysis The problem is simple: although the storage capaciti ...

  10. 《Hadoop权威指南》读书笔记——MapeReduce入门

    1 MR的原理 MapeReduce(简称MR)的是大数据计算引擎,相对于Linux awk等工具而已,最大的优势是可以分布式执行,充分利用计算机的多核性能. 一个MR作业(job)是客户端需要执行的 ...

最新文章

  1. 小米 samba linux,不折腾会死:CentOS7访问小米路由(Samba服务)
  2. CentOS7 虚拟机最小化安装
  3. optee的Share Memory介绍
  4. ActiveMQ跟SpringBoot整合的双向队列
  5. STL 之swap, iter_swap, swap_ranges
  6. 来自极客标签10款最新设计素材-系列七
  7. 图像处理-RBG图像和灰度图像
  8. mysql分页查询所有数据库,数据库分页查询
  9. C#中扩展StringBuilder支持链式方法
  10. 根据GPS经纬度计算距离和位置获取
  11. 【证明】对称矩阵的特征值为实数
  12. GB28181国标错误码
  13. linux断开网络的命令,Linux常用网络命令总结
  14. Android使用DatePickerDialog日期控件使用主题android:Theme.Holo.Light.Dialog有白边的问题解决
  15. 音频处理工具 GoldWave / Cool Edit Pro
  16. SPARC架构下的反汇编(三)——SPARC汇编语言
  17. 分享视频剪辑必备的三个素材软件(配音/文案/图片)
  18. RPG Maker的引擎分析(一)
  19. Linux 基本使用和 web 程序部署
  20. 100个常见的php面试题和答案分享,精选php面试题及答案

热门文章

  1. 视频教程-MATLAB数学建模-Matlab
  2. 发明专利和实用新型专利的区别
  3. 【小程序】图解小程序平台架构及其特征与应用机制
  4. Linux系统常用命令学习
  5. 云和恩墨加入GCC,共建绿色计算产业生态
  6. 虚拟蜜网Honeywall的安装
  7. php随机壁纸api,【编码书生】Bing 随机壁纸 API
  8. IE7提示“出现运行时间错误,是否要进行调试?”的解决办法
  9. 网络安全实验2 扫描器X-SCANNER应用实验
  10. 九天鸟p2p网贷系统的架构设计