大数据软件框架之

Hadoop框架:

Hadoop框架是由Java语言编写的,它的核心是HDFS(Hadoop分布式文件系统)和MapReduse,对于大数据而言,Hadoop就是用大量的廉价机器组成的集群去执行大规模运算,这包括大规模的计算和大规模的存储。HDFS为大数据提供了存储,MapReduse为大数据提供了计算。

HDFS是一个可运行在廉价机器上的可容错分布式文件系统,它把一个文件分割成一个或者多个数据块(默认大小是64MB),发布到集群的节点上,从而实现了高吞吐量的数据访问,这个集群拥有数百个节点,并支持千万级别的文件。因此,HDFS非常适合大规模数据集上的应用。

MapReduse(分布式计算框架)是一种编程模型,用以大数据量地批处理计算,MapReduse的思想是将批处理的任务主要分成两个阶段(Map和Reduse阶段),所谓的Map阶段就是把数据生成“键-值”对,按键排序。中间的一个步骤叫shuffle,把同样的key运输到同一个reduser上面去,在reducer上,因为都是同一个key,就直接可以做聚合(算出总和),最后把结果输出到HDFS。它还支持C/C++、Java、Ruby、perl和Python编程语言。

Yarn(集群资源管理器):

从Hadoop2.0开始,MapReduse就被一个改进的版本代替,这就是YARN。它是一种新的Hadoop资源管理器,修复了MapReduce的不足,并对可伸缩性(支持一万个节点和二十万个内核的集群)、可靠性和集群利用率进行了提升。减少了资源消耗,并且让检测每一个job子任务状态的程序分布式了。总之,YARN从某种意义上来说应该算是一个云操作系统,它负责集群的资源管理。

Zookeeper(分布式协作服务):

Zookeeper是一个集中式服务,主要负责分布式任务调度,它用来完成配置管理、名字服务、提供分布式锁以及集群管理等功能工作。我感觉这个就是一个把配置文件,名字服务放在一起的一个接口,供其他服务访问,同时它也提供了一个分布式锁,只让一个服务去干活,它还可以感知各种故障,总之,Zookeeper就是用来统一分布式系统的状态。

大数据软件框架之Hadoop框架相关推荐

  1. 大数据开发要学Java框架吗?

    大数据开发要学Java框架吗?学习大数据要去学习Java而且还要精通,不仅要掌握Java基础知识还要掌握一些核心的Java架构.从java基础开始,学习大数据开发过程中必备的离线数据分析.实时数据分析 ...

  2. 大数据可视化模板、模板框架、动态控件、可视化大数据原型、监控平台、图表元件库、数据看板、驾驶舱、统计图表、大数据驾驶舱、大屏展示、联勤治理、旅游、运输、车辆、校园、舆情、信息监测看板原型

    大数据可视化模板.模板框架.动态控件.可视化大数据原型.监控平台.图表元件库.数据看板.驾驶舱.统计图表.大数据驾驶舱.大屏展示.智慧安防.党建.旅游.运输.医疗.校园.工业园区环境监测看板原型 适用 ...

  3. 大数据OLAP技术体系学习框架

    文章目录 大数据OLAP技术体系学习框架 前言 一.Apache Druid分布式数据存储 二.ClickHouse列式数据库 三.Presto分布式查询引擎 四.Kudu分布式存储库 五.Kylin ...

  4. 大数据可视化模板、模板框架、动态控件、可视化大数据原型、监控平台、图表元件库、数据看板、驾驶舱、统计图表、大数据驾驶舱、大屏展示、智慧安防、党建、旅游、运输、医疗、校园、工业园区环境监测看板原型

    大数据可视化模板.模板框架.动态控件.可视化大数据原型.监控平台.图表元件库.数据看板.驾驶舱.统计图表.大数据驾驶舱.大屏展示.智慧安防.党建.旅游.运输.医疗.校园.工业园区环境监测看板原型 适用 ...

  5. 阿里巴巴飞天大数据架构体系与Hadoop生态系统

    很多人问阿里的飞天大数据平台.云梯2.MaxCompute.实时计算到底是什么,和自建Hadoop平台有什么区别. 先说Hadoop 什么是Hadoop? Hadoop是一个开源.高可靠.可扩展的分布 ...

  6. 大数据学习笔记:Hadoop生态系统

    文章目录 一.Hadoop是什么 二.Hadoop生态系统图 三.Hadoop生态圈常用组件 (一)Hadoop (二)HDFS (三)MapReduce (四)Hive (五)Hbase (六)Zo ...

  7. 大数据开发教程——构建Hadoop开发环境

    什么是Hadoop ? Hadoop是由 Apache 基金会开发和维护的一个开源的分布式计算和存储框架. Hadoop 为庞大的计算机集群提供可靠的.可伸缩的应用层计算和存储支持,它允许使用简单的编 ...

  8. 大数据常见面试题 Hadoop篇(2)

    大数据常见面试题 Hadoop篇(1)_后季暖的博客-CSDN博客1)序列化和反序列化序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储(持久化)和网络传输.反序列化就是将收到字 ...

  9. 大数据学习之路-Hadoop

    Hadoop 1. 大数据导论 1.1 大数据概念 1.2 大数据特点 1.3 大数据应用场景 1.4 大数据部门组织结构 2. Hadoop简介与大数据生态 2.1 Hadoop的介绍 2.2 Ha ...

最新文章

  1. 分享在winform下实现左右布局多窗口界面
  2. shell脚本(五)——函数的格式、传参、变量、递归、函数库
  3. 'parent.relativePath' points at no local POM
  4. Java 8“失宠”
  5. 半监督主动式机器学习的技术优势:银行金融风控场景分析
  6. NHibernate初学者指南(3):创建Model
  7. android excel加图片,安卓和iOS版的Excel现在可以拍摄图片上的表格转为电子表格
  8. 脑与认知科学基础(期末复习)
  9. 计算机桌面搜狗输入图标不见了怎么办,win7搜狗输入法不见了怎么办
  10. Java基础-面向对象进阶-多态包final权限修饰符代码块
  11. jQuery 选择器 _ 菜鸟教程
  12. 实习日志 (2021.09.13)
  13. OpenWrt——进行PPPoE拨号时透过路由器访问光猫的方法
  14. 求一段字符串内最长的非空子字符串的长度(实例)
  15. 操作系统的了解和安装
  16. LTI连续系统零状态响应求解
  17. Python学习D-1
  18. LBS AR开发实录(1):手机位姿数据的实时获取
  19. 如何获取中国电信、网通、铁通的最新ip地址段
  20. PowerDesigner常见错误

热门文章

  1. 2016年最新最精简的QQ群搜索排名优化教程步骤
  2. 关于沁恒CH32V203F6P6烧录官方例程无法工作
  3. 《信号与系统》解读 第1章 信号与系统概述-3:基本的1阶时域信号--单位阶跃信号、单位斜变信号、单位冲击信号
  4. 内部计算机有mac吗,电脑内部录音软件如何录音 mac怎么录音
  5. 计算机自动化考试试题,计算机等级考试办公自动化考试试题(一)
  6. 近端梯度下降与软阈值迭代:PGD and ISTA
  7. React 快速上手
  8. 调试LM1117电压转换芯片
  9. C Primer Plus—第二章编程习题
  10. linux minit 截图,带有屏幕截图的Linux Mint 19.2代号“ Tina”的安装指南