大数据软件框架之Hadoop框架
大数据软件框架之
Hadoop框架:
Hadoop框架是由Java语言编写的,它的核心是HDFS(Hadoop分布式文件系统)和MapReduse,对于大数据而言,Hadoop就是用大量的廉价机器组成的集群去执行大规模运算,这包括大规模的计算和大规模的存储。HDFS为大数据提供了存储,MapReduse为大数据提供了计算。
HDFS是一个可运行在廉价机器上的可容错分布式文件系统,它把一个文件分割成一个或者多个数据块(默认大小是64MB),发布到集群的节点上,从而实现了高吞吐量的数据访问,这个集群拥有数百个节点,并支持千万级别的文件。因此,HDFS非常适合大规模数据集上的应用。
MapReduse(分布式计算框架)是一种编程模型,用以大数据量地批处理计算,MapReduse的思想是将批处理的任务主要分成两个阶段(Map和Reduse阶段),所谓的Map阶段就是把数据生成“键-值”对,按键排序。中间的一个步骤叫shuffle,把同样的key运输到同一个reduser上面去,在reducer上,因为都是同一个key,就直接可以做聚合(算出总和),最后把结果输出到HDFS。它还支持C/C++、Java、Ruby、perl和Python编程语言。
Yarn(集群资源管理器):
从Hadoop2.0开始,MapReduse就被一个改进的版本代替,这就是YARN。它是一种新的Hadoop资源管理器,修复了MapReduce的不足,并对可伸缩性(支持一万个节点和二十万个内核的集群)、可靠性和集群利用率进行了提升。减少了资源消耗,并且让检测每一个job子任务状态的程序分布式了。总之,YARN从某种意义上来说应该算是一个云操作系统,它负责集群的资源管理。
Zookeeper(分布式协作服务):
Zookeeper是一个集中式服务,主要负责分布式任务调度,它用来完成配置管理、名字服务、提供分布式锁以及集群管理等功能工作。我感觉这个就是一个把配置文件,名字服务放在一起的一个接口,供其他服务访问,同时它也提供了一个分布式锁,只让一个服务去干活,它还可以感知各种故障,总之,Zookeeper就是用来统一分布式系统的状态。
大数据软件框架之Hadoop框架相关推荐
- 大数据开发要学Java框架吗?
大数据开发要学Java框架吗?学习大数据要去学习Java而且还要精通,不仅要掌握Java基础知识还要掌握一些核心的Java架构.从java基础开始,学习大数据开发过程中必备的离线数据分析.实时数据分析 ...
- 大数据可视化模板、模板框架、动态控件、可视化大数据原型、监控平台、图表元件库、数据看板、驾驶舱、统计图表、大数据驾驶舱、大屏展示、联勤治理、旅游、运输、车辆、校园、舆情、信息监测看板原型
大数据可视化模板.模板框架.动态控件.可视化大数据原型.监控平台.图表元件库.数据看板.驾驶舱.统计图表.大数据驾驶舱.大屏展示.智慧安防.党建.旅游.运输.医疗.校园.工业园区环境监测看板原型 适用 ...
- 大数据OLAP技术体系学习框架
文章目录 大数据OLAP技术体系学习框架 前言 一.Apache Druid分布式数据存储 二.ClickHouse列式数据库 三.Presto分布式查询引擎 四.Kudu分布式存储库 五.Kylin ...
- 大数据可视化模板、模板框架、动态控件、可视化大数据原型、监控平台、图表元件库、数据看板、驾驶舱、统计图表、大数据驾驶舱、大屏展示、智慧安防、党建、旅游、运输、医疗、校园、工业园区环境监测看板原型
大数据可视化模板.模板框架.动态控件.可视化大数据原型.监控平台.图表元件库.数据看板.驾驶舱.统计图表.大数据驾驶舱.大屏展示.智慧安防.党建.旅游.运输.医疗.校园.工业园区环境监测看板原型 适用 ...
- 阿里巴巴飞天大数据架构体系与Hadoop生态系统
很多人问阿里的飞天大数据平台.云梯2.MaxCompute.实时计算到底是什么,和自建Hadoop平台有什么区别. 先说Hadoop 什么是Hadoop? Hadoop是一个开源.高可靠.可扩展的分布 ...
- 大数据学习笔记:Hadoop生态系统
文章目录 一.Hadoop是什么 二.Hadoop生态系统图 三.Hadoop生态圈常用组件 (一)Hadoop (二)HDFS (三)MapReduce (四)Hive (五)Hbase (六)Zo ...
- 大数据开发教程——构建Hadoop开发环境
什么是Hadoop ? Hadoop是由 Apache 基金会开发和维护的一个开源的分布式计算和存储框架. Hadoop 为庞大的计算机集群提供可靠的.可伸缩的应用层计算和存储支持,它允许使用简单的编 ...
- 大数据常见面试题 Hadoop篇(2)
大数据常见面试题 Hadoop篇(1)_后季暖的博客-CSDN博客1)序列化和反序列化序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储(持久化)和网络传输.反序列化就是将收到字 ...
- 大数据学习之路-Hadoop
Hadoop 1. 大数据导论 1.1 大数据概念 1.2 大数据特点 1.3 大数据应用场景 1.4 大数据部门组织结构 2. Hadoop简介与大数据生态 2.1 Hadoop的介绍 2.2 Ha ...
最新文章
- 分享在winform下实现左右布局多窗口界面
- shell脚本(五)——函数的格式、传参、变量、递归、函数库
- 'parent.relativePath' points at no local POM
- Java 8“失宠”
- 半监督主动式机器学习的技术优势:银行金融风控场景分析
- NHibernate初学者指南(3):创建Model
- android excel加图片,安卓和iOS版的Excel现在可以拍摄图片上的表格转为电子表格
- 脑与认知科学基础(期末复习)
- 计算机桌面搜狗输入图标不见了怎么办,win7搜狗输入法不见了怎么办
- Java基础-面向对象进阶-多态包final权限修饰符代码块
- jQuery 选择器 _ 菜鸟教程
- 实习日志 (2021.09.13)
- OpenWrt——进行PPPoE拨号时透过路由器访问光猫的方法
- 求一段字符串内最长的非空子字符串的长度(实例)
- 操作系统的了解和安装
- LTI连续系统零状态响应求解
- Python学习D-1
- LBS AR开发实录(1):手机位姿数据的实时获取
- 如何获取中国电信、网通、铁通的最新ip地址段
- PowerDesigner常见错误
热门文章
- 2016年最新最精简的QQ群搜索排名优化教程步骤
- 关于沁恒CH32V203F6P6烧录官方例程无法工作
- 《信号与系统》解读 第1章 信号与系统概述-3:基本的1阶时域信号--单位阶跃信号、单位斜变信号、单位冲击信号
- 内部计算机有mac吗,电脑内部录音软件如何录音 mac怎么录音
- 计算机自动化考试试题,计算机等级考试办公自动化考试试题(一)
- 近端梯度下降与软阈值迭代:PGD and ISTA
- React 快速上手
- 调试LM1117电压转换芯片
- C Primer Plus—第二章编程习题
- linux minit 截图,带有屏幕截图的Linux Mint 19.2代号“ Tina”的安装指南