此处对hadoop的历史略过,有兴趣可自行百度。

hadoop主要是用于处理大数据量(PB级别)的数据,hadoop提供了一个稳定的共享存储和分析系统。存储由hdfs实现,分析由mapreduce 实现。这两个功能是hadoop的核心。

hadoop技术栈:

Pig

Chukwa

Hive

Hbase

Mapreduce

Hdfs

Zookeeper

core

avro

扩展:技术栈是一项工作或者职位所需的一系列技术统称。

hadoop技术栈简单介绍:

pig:数据流语言和运行环境,用以检索非常大的数据集。pig运行在mapreduce 和hdfs的集群上。

hive:分布式数据仓库。hive管理hdfs中存储的数据,并提供基于sql的查询语言(由运行时引擎翻译成MapReduce作业)用以查询数据。

chukwa:分布式数据收集和分析系统。chukwa运行hdfs存储数据的收集器,它使用mapreduce来生成报告。

hbase:

mapreduce: 分布式数据处理模式和执行环境,运行于大型商用机集群

hdfs:分布式文件系统,运行于大型商用机集群

zookeeper:一个分布式的、高可用的协调服务。zookeeper提供分布式锁之类的基本服务用于构建分布式应用

core:一系列的分布式文件系统和通用I/O的组件和接口(序列化、javarpc和持久化数据结构)。

avro:一种提供高效、跨语言rpc的数据序列化系统,持久化数据存储

hadoop的两大功能:hdfs和mapreduce

hdfs(hadoop distributed fileSystem)文件分布式系统,

mapreduce

传统关系型数据库跟mapreduce 的区别(此处暂时不涉及理论部分,以后补充)

传统关系型数据库

Mapreduce

数据大小

GB

PB

访问

交互性和批处理

批处理

更新

多次读写

一次写入多次读取

结构

静态模式

动态模式

集成度

伸缩性

非线性

线性

更新一小部分数据,关系型数据库效率高。更新大部分数据库的时候关系型数据库的效率比mapreduce差。

MapReduce理解:

读完mapreduce部分以下是我对mapreduce的认识。

另一个概念 job、jobtracker、tasktracker

mapreduce 作业(job) 是客户端执行的单位:包括输入数据、MapReduce程序和配置信息。hadoop通过把作业分成若干个小任务(task)来工作,其中包括两种任务类型的任务:map任务和reduce任务。两种类型的节点控制着作业执行过程:jobtracker 和多个tasktracker。jobtracker是主线程,他通过调度任务在tasktracker上运行,来协调所有运行在系统上的作业。tasktracker在运行任务的同时,把进度报告传送到jobtracker,jobtracker则记录着每项任务的整体进展状况。如果其中一个失败,jobstracker则会重新调度任务到另一个tasktracker。

mapreduce内部包括两部分,一个是map函数,一个是reduce函数。

hadoop会把数据流分割成等长分片(input split),hadoop为每个分片创建一个map任务,这个小数据片如下图几种方式经过map函数处理后传递给reduce函数进行处理数据然后输出文件,在此过程中分片的大小是可以调节的,但是最好是64M,64M是HDFS默认的大小。map任务的执行节点和输入数据的存储节点是同一节点,hadoop的性能达到最佳(数据局部性优化 data locality optimization)。

如果有多个reduce,map任务会对其输出进行分区,为每一个reduce任务创建一个分区,每个分区包含很多键(及其关联的值),这种行为成为“洗牌”。

初识hadoop 读hadoop权威指南相关推荐

  1. 读HTTP权威指南的体会

    国庆期间,我读了HTTP权威指南一书,现在我把总节为大家讲一下: Web 浏览器.服务器和相关的Web 应用程序都是通过HTTP 相互通信的.HTTP 是 现代全球因特网中使用的公共语言. 是对HTT ...

  2. 读jquery 权威指南[7]-性能优化与最佳实践

    一.优化选择器执行速度 1. 优先使用ID选择器和标记选择器 使用选择器时应该首选ID选择器($("#id")),其次是标记选择器($("div")),最后再选 ...

  3. 读jquery 权威指南[4]-Ajax

    一.获取异步数据 jQuery可以从服务器异步获得静态数据. ①load() $.load(url,data,callback) url要加载的页面地址, data发送到服务器的数据key/value ...

  4. 读jquery 权威指南[2]-事件

    1.  事件冒泡 阻止事件冒泡的两种方式: event.stopPropagation(); return false ; 2. 绑定事件--bind(type,[data],function) ty ...

  5. 读jquery 权威指南[3]-动画

    一. 显示与隐藏--hide(),show() 1. 方法: hide(speed,[callback]); show(speed,[callback]); 说明:这两个方法还可以实现带动画效果的显示 ...

  6. 读jQuery 权威指南[5]-插件

    一.说明 jQuery插件官网:http://plugins.jquery.com/ 使用插件时引用顺序:插件引用要位于主jquery库之后. 二.插件应用实例 演示插件jquery.validate ...

  7. 读jQuery 权威指南[6]--实用工具函数

    官方地址:http://api.jquery.com/category/utilities/ 一.数组和对象操作 1. $.each--遍历 $.each(obj,function(param1,pa ...

  8. 跟小静读《jQuery权威指南》——目录

    前言 2014年开始了,年底给自己制订的学习计划,第一步先从学习<jQuery权威指南>开始. jQuery大家都很比较熟悉,但是我经常是边用的时候边对照着API,这次找本书通读一遍,记录 ...

  9. 跟我一起读《Hadoop权威指南》 第三篇 -- HDFS (Hadoop分布式文件系统)

    HDFS概念 HDFS(Hadoop Distributed FileSystem)是Hadoop旗舰级别文件系统,用来存储超大文件(从几百MB到几百TB级别数据).流式数据访问.高延时的以及一次写入 ...

最新文章

  1. Spring AOP源码分析(六)Spring AOP配置的背后
  2. maven私服的配置使用
  3. Windows访问Linux的Tomcat,显示无法连接
  4. qt读oracle时间戳,QT利用QDateTime获取当前时间戳的方法toTime_t
  5. “性能监视器”监视系统性能的基本设置
  6. 联通手机卡欠费了无法转接人工服务?
  7. OpenCV(二)---朴素贝叶斯分类器 NormalBayesClassifier
  8. 免费自制app软件:在线生成APP只需一个URL
  9. mac拷贝文件到u盘,mac拷贝文件到u盘很慢
  10. 维护计算机需要做哪些,电脑的日常维护有哪些?
  11. SpringBoot(七) 整合Mybatis
  12. 谷歌浏览器收藏栏不见了解决办法
  13. ThinkPHP 导入的几种方法
  14. 就绪函数的定义_准备就绪的定义被认为是有害的
  15. 关于4G转wifi路由器模块与4G转有线模块的原理
  16. c语言 实习报告,计算机专业c语言实训报告范文
  17. 有限体积法(11)——交错网格
  18. 服务器信息备份更新,电子病历服务器双机更换及实时备份与HIS服务器升级改造合同备案...
  19. Spring详细教程
  20. 前端 项目中 判断两个对象value值是否相等

热门文章

  1. 去掉Warning: Using a password on the command line interface can be insecure.
  2. 记录之十进制,二进制,十六进制
  3. 那些令程序员泪流满面的瞬间
  4. blog推荐 - 电子图书与IT文档资料(ITPUB论坛)
  5. 数据结构课程设计农夫过河
  6. 计算机机房使用ups作用,UPS空调上.下通风在机房起什么作用
  7. 网络安全工程师应该具备哪些职业技能?
  8. mysql怎么查看自己建的表_mysql怎么查看已建的表
  9. Java对象克隆——浅克隆和深克隆的区别
  10. 数据库MySQL在Linux安装