大数据系列文章汇总链接 - 更新到15篇

HDFS:分布式存储系统(Hadoop Distributed File System):提供了高可靠性、高扩展性和高吞吐率的数据存储服务
HDFS源自于Google的GFS论文 (发表于2003年10月 ),是GFS克隆版
YARN:资源管理系统(Yet Another Resource Negotiator):负责集群资源的统一管理和调度,Hadoop 2.0新增系统,使得多种计算框架可以运行在一个集群中

MapReduce:分布式计算框架:具有易于编程、高容错性和高扩展性等优点

MapReduce源自于Google的MapReduce论文 (发表于2004年12月),是Google MapReduce克隆版
Hive:由facebook开源,基于MR的数据仓库,数据计算使用MR,数据存储使用HDFS,Hive 定义了一种类 SQL 查询语言——HQL:类似SQL,但不完全相同
日志分析:统计网站一个时间段内的pv、uv
Pig:由yahoo!开源,构建在Hadoop之上的数据仓库
Mahout:数据挖掘库,基于Hadoop的机器学习和数据挖掘的分布式计算框架,实现了三大类算法 :推荐(Recommendation) 、聚类(Clustering) 、分类(Classification)
HBase:分布式数据库,源自Google的Bigtable论文 ,发表于2006年11月 ,是Google Bigtable克隆版
Zookeeper:分布式协作服务,源自Google的Chubby论文 ,发表于2006年11月 ,是Chubby克隆版
解决分布式环境下数据管理问题 :统一命名 、状态同步 、集群管理 、配置同步
Sqoop:数据同步工具,连接Hadoop与传统数据库之间的桥梁 ,支持多种数据库,包括MySQL、DB2等 ,插拔式,用户可根据需要支持新的数据库 ;本质上是一个MapReduce程序
Flume:日志收集工具,Cloudera开源的日志收集系统
Oozie:作业流调度系统
目前计算框架和作业类型繁多: MapReduce Java、Streaming、HQL、Pig等 
如何对这些框架和作业进行统一管理和调度:
不同作业之间存在依赖关系(DAG);
周期性作业
定时执行的作业
作业执行状态监控与报警(发邮件、短信等)
Hadoop发行版本
apache hadoop版本
CDH:Cloudera DistributedHadoop
http://archive.cloudera.com/cdh5/cdh/
HDP:Hortonworks Data Platform
http://zh.hortonworks.com/hdp/downloads/
建议选择公司发行版(不必面临版本某一个框架的选择问题),比如CDH或HDP ,推荐使用CDH(国内主流版本)
更易维护和升级
经过集成测试,不会面临版本兼容问题

--------------------------
微信公众号:IT人成长关注
大数据技术QQ群:485681776

大数据(一) - hadoop生态系统及版本演化相关推荐

  1. GitChat · 大数据 | 一步一步学习大数据:Hadoop 生态系统与场景

    目录(?)[-] Hadoop概要 Hadoop相关组件介绍 HDFS Yarn Hive HBase Spark Other Tools Hadoop集群硬件和拓扑规划 硬件配置 软件配置 Hado ...

  2. 【大数据】Hadoop生态系统及其组件

    Hadoop 生态系统及其组件 1.Hadoop 生态系统的组成 本篇文章将向大家介绍 Hadoop 生态系统的不同组件.也正是因为这些组件,使得 Hadoop 如此强大.通过学习 HDFS 和 HD ...

  3. 大数据之-Hadoop三大发行版本---大数据之hadoop工作笔记0010

    可以看到,hadoop可以说是有3个版本,Apache这个是基础的,原始的,免费的. cloudera这个公司的,是付费的,可能免费给用,但是出了问题,按给你解决的时间收费.所以可以看到他虽然开源,但 ...

  4. Hadoop生态系统:用于处理大数据的Hadoop工具

    HADOOP生态系统 在上一个Hadoop Tutorial上的博客中,我们讨论了Hadoop,其功能和核心组件.现在,下一步是了解Hadoop生态系统.在开始使用Hadoop之前,这是一个必不可少的 ...

  5. hadoop 传感器数据_大数据时代Hadoop的本质,你有过认真了解吗?

    ​ ​除非你过去几年一直隐居,远离这个计算机的世界,否则你不可能没有听过Hadoop,全名Apache Hadoop,是一个在通用低成本的硬件上处理存储和大规模并行计算的一个开源框架,Hadoop本质 ...

  6. 【快速入门大数据】hadoop和它的hdfs、yarn、mapreduce

    文章目录 导学 大数据概述 初识Hadoop 概述 核心组件 HDFS分布式文件系统 资源调度系统YARN MapReduce 优势 发展史 生态系统 发行版本选择 企业应用案例 第3章 分布式文件系 ...

  7. 大数据技术Hadoop的介绍

    大数据的基本处理流程与传统数据处理流程并无太大差异,主要区别在于:由于大数据要处理大量.非结构化的数据,所以在各处理环节中都可以采用并行处理.目前,Hadoop.MapReduce和Spark等分布式 ...

  8. 大数据和Hadoop时代的维度建模和Kimball数据集市

    维度建模已死? 在回答这个问题之前,让我们回头来看看什么是所谓的维度数据建模. 为什么需要为数据建模? 有一个常见的误区,数据建模的目的是用 ER 图来设计物理数据库,实际上远不仅如此.数据建模代表了 ...

  9. Hadoop专业解决方案-第1章 大数据和Hadoop生态圈

    一.前言: 非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,经过两周的努力,已经有啦初步的成果,目前第1章 大数据和Hadoop生态圈小组已经翻译完成,在此 ...

最新文章

  1. 《中国人工智能学会通讯》——12.38 知识库与 HTML 表格的融合
  2. java lucence_Lucence使用入门
  3. linux内核兼容性,各种glibc和Linux内核版本的兼容性
  4. 决策树中的过拟合问题
  5. 96PIN直插DIP千兆四口网络变压器 千兆交换机路由器网络滤波器
  6. C语言程序static改错题,2014计算机二级C语言程序设计全真测试题
  7. matlab微积分如何计算器,如何用matlab对这个函数进行积分。 请问这个公式是如何算出来的?使用微积分吗?...
  8. 2021春节红包活动平台大全 春节平台集卡活动汇总
  9. 计算机应用基础165791,人大网大计算机应用基础试题答案解析.doc
  10. 想自学软件测试?这本《软件测试》,入门必看
  11. 2021Unity教程:Unity官方中文版免费下载方法(黑皮肤可选)无需破解!
  12. 联想M490 开机U盘启动 快捷键
  13. 大学寒假这样过,过完惊艳所有人,不只是你的宿友,mysql基础教程西泽pdf
  14. 右侧追击(二)——券商行业
  15. 2021AAPM大赛第一名技术报告Designing an Iterative Network for Fanbeam-CTwith Unknown Geometry 阅读笔记
  16. 横河dcs系统配有服务器吗,横河DCS常见问题的解答 转贴
  17. 导电聚合物中热电效应转换原理
  18. pytorch-lightning踩坑记录
  19. 07-15 shell命令 man ps linux各个文件夹的含义
  20. bzoj 1718: [Usaco2006 Jan] Redundant Paths 分离的路径

热门文章

  1. jquery兄弟标签_jquery查找子父、兄弟元素
  2. 关于建造的逻辑: BIM和VDC
  3. Java | 类与对象(updating)
  4. 电脑维修--电路,电子元器件基础知识
  5. ApacheCN 活动汇总 2019.2
  6. (附源码)ssm基于SSM的南昌旅游网站管理系统设计与实现 毕业设计 101407
  7. 双系统在linux中修复引导文件夹,linux双系统引导修复
  8. Android入门(1) 安卓相关概念及版本
  9. MNIST with Keras for Beginners
  10. K均值分类做多光谱图像分割matlab版本