初识hadoop 读hadoop权威指南
此处对hadoop的历史略过,有兴趣可自行百度。
hadoop主要是用于处理大数据量(PB级别)的数据,hadoop提供了一个稳定的共享存储和分析系统。存储由hdfs实现,分析由mapreduce 实现。这两个功能是hadoop的核心。
hadoop技术栈:
Pig |
Chukwa |
Hive |
Hbase |
|
Mapreduce |
Hdfs |
Zookeeper |
||
core |
avro |
扩展:技术栈是一项工作或者职位所需的一系列技术统称。
hadoop技术栈简单介绍:
pig:数据流语言和运行环境,用以检索非常大的数据集。pig运行在mapreduce 和hdfs的集群上。
hive:分布式数据仓库。hive管理hdfs中存储的数据,并提供基于sql的查询语言(由运行时引擎翻译成MapReduce作业)用以查询数据。
chukwa:分布式数据收集和分析系统。chukwa运行hdfs存储数据的收集器,它使用mapreduce来生成报告。
hbase:
mapreduce: 分布式数据处理模式和执行环境,运行于大型商用机集群
hdfs:分布式文件系统,运行于大型商用机集群
zookeeper:一个分布式的、高可用的协调服务。zookeeper提供分布式锁之类的基本服务用于构建分布式应用
core:一系列的分布式文件系统和通用I/O的组件和接口(序列化、javarpc和持久化数据结构)。
avro:一种提供高效、跨语言rpc的数据序列化系统,持久化数据存储
hadoop的两大功能:hdfs和mapreduce
hdfs(hadoop distributed fileSystem)文件分布式系统,
mapreduce
传统关系型数据库跟mapreduce 的区别(此处暂时不涉及理论部分,以后补充)
传统关系型数据库 |
Mapreduce |
|
数据大小 |
GB |
PB |
访问 |
交互性和批处理 |
批处理 |
更新 |
多次读写 |
一次写入多次读取 |
结构 |
静态模式 |
动态模式 |
集成度 |
高 |
低 |
伸缩性 |
非线性 |
线性 |
更新一小部分数据,关系型数据库效率高。更新大部分数据库的时候关系型数据库的效率比mapreduce差。
MapReduce理解:
读完mapreduce部分以下是我对mapreduce的认识。
另一个概念 job、jobtracker、tasktracker
mapreduce 作业(job) 是客户端执行的单位:包括输入数据、MapReduce程序和配置信息。hadoop通过把作业分成若干个小任务(task)来工作,其中包括两种任务类型的任务:map任务和reduce任务。两种类型的节点控制着作业执行过程:jobtracker 和多个tasktracker。jobtracker是主线程,他通过调度任务在tasktracker上运行,来协调所有运行在系统上的作业。tasktracker在运行任务的同时,把进度报告传送到jobtracker,jobtracker则记录着每项任务的整体进展状况。如果其中一个失败,jobstracker则会重新调度任务到另一个tasktracker。
mapreduce内部包括两部分,一个是map函数,一个是reduce函数。
hadoop会把数据流分割成等长分片(input split),hadoop为每个分片创建一个map任务,这个小数据片如下图几种方式经过map函数处理后传递给reduce函数进行处理数据然后输出文件,在此过程中分片的大小是可以调节的,但是最好是64M,64M是HDFS默认的大小。map任务的执行节点和输入数据的存储节点是同一节点,hadoop的性能达到最佳(数据局部性优化 data locality optimization)。
如果有多个reduce,map任务会对其输出进行分区,为每一个reduce任务创建一个分区,每个分区包含很多键(及其关联的值),这种行为成为“洗牌”。
初识hadoop 读hadoop权威指南相关推荐
- 读HTTP权威指南的体会
国庆期间,我读了HTTP权威指南一书,现在我把总节为大家讲一下: Web 浏览器.服务器和相关的Web 应用程序都是通过HTTP 相互通信的.HTTP 是 现代全球因特网中使用的公共语言. 是对HTT ...
- 读jquery 权威指南[7]-性能优化与最佳实践
一.优化选择器执行速度 1. 优先使用ID选择器和标记选择器 使用选择器时应该首选ID选择器($("#id")),其次是标记选择器($("div")),最后再选 ...
- 读jquery 权威指南[4]-Ajax
一.获取异步数据 jQuery可以从服务器异步获得静态数据. ①load() $.load(url,data,callback) url要加载的页面地址, data发送到服务器的数据key/value ...
- 读jquery 权威指南[2]-事件
1. 事件冒泡 阻止事件冒泡的两种方式: event.stopPropagation(); return false ; 2. 绑定事件--bind(type,[data],function) ty ...
- 读jquery 权威指南[3]-动画
一. 显示与隐藏--hide(),show() 1. 方法: hide(speed,[callback]); show(speed,[callback]); 说明:这两个方法还可以实现带动画效果的显示 ...
- 读jQuery 权威指南[5]-插件
一.说明 jQuery插件官网:http://plugins.jquery.com/ 使用插件时引用顺序:插件引用要位于主jquery库之后. 二.插件应用实例 演示插件jquery.validate ...
- 读jQuery 权威指南[6]--实用工具函数
官方地址:http://api.jquery.com/category/utilities/ 一.数组和对象操作 1. $.each--遍历 $.each(obj,function(param1,pa ...
- 跟小静读《jQuery权威指南》——目录
前言 2014年开始了,年底给自己制订的学习计划,第一步先从学习<jQuery权威指南>开始. jQuery大家都很比较熟悉,但是我经常是边用的时候边对照着API,这次找本书通读一遍,记录 ...
- 跟我一起读《Hadoop权威指南》 第三篇 -- HDFS (Hadoop分布式文件系统)
HDFS概念 HDFS(Hadoop Distributed FileSystem)是Hadoop旗舰级别文件系统,用来存储超大文件(从几百MB到几百TB级别数据).流式数据访问.高延时的以及一次写入 ...
最新文章
- Spring AOP源码分析(六)Spring AOP配置的背后
- maven私服的配置使用
- Windows访问Linux的Tomcat,显示无法连接
- qt读oracle时间戳,QT利用QDateTime获取当前时间戳的方法toTime_t
- “性能监视器”监视系统性能的基本设置
- 联通手机卡欠费了无法转接人工服务?
- OpenCV(二)---朴素贝叶斯分类器 NormalBayesClassifier
- 免费自制app软件:在线生成APP只需一个URL
- mac拷贝文件到u盘,mac拷贝文件到u盘很慢
- 维护计算机需要做哪些,电脑的日常维护有哪些?
- SpringBoot(七) 整合Mybatis
- 谷歌浏览器收藏栏不见了解决办法
- ThinkPHP 导入的几种方法
- 就绪函数的定义_准备就绪的定义被认为是有害的
- 关于4G转wifi路由器模块与4G转有线模块的原理
- c语言 实习报告,计算机专业c语言实训报告范文
- 有限体积法(11)——交错网格
- 服务器信息备份更新,电子病历服务器双机更换及实时备份与HIS服务器升级改造合同备案...
- Spring详细教程
- 前端 项目中 判断两个对象value值是否相等