hadoop

  • 1.1 hadoop 介绍
  • 1.2 hadoop 组件介绍
    • Hadoop的核心生态架构
    • 核心组件
  • 2.1 hadoop 搭建
    • 2.1.1 hadoop 下载
    • 2.1.2 准备环境
    • 2.1.3 安装 方式
    • 2.1.4 配置
    • 2.1.5 测试

1.1 hadoop 介绍

官网介绍:

​ The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Rather than rely on hardware to deliver high-availability, the library itself is designed to detect and handle failures at the application layer, so delivering a highly-available service on top of a cluster of computers, each of which may be prone to failures.

百科介绍

​ Apache Hadoop软件库是一个框架,该框架允许使用简单的编程模型跨计算机集群对大型数据集进行分布式处理。它旨在从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。库本身不用于依靠硬件来提供高可用性,而是设计用于检测和处理应用程序层的故障,因此可以在计算机集群的顶部提供高可用性服务,每台计算机都容易出现故障。

作用

Hadoop主要用来存储以及处理 大量并且复杂的数据

1.2 hadoop 组件介绍

Hadoop的核心生态架构
  • 底层:存储层,文件系统HDFS,NoSQL Hbase
  • 中间层:资源及数据管理层,YARN以及Sentry等
  • 上层:MapReduce、Impala、Spark等计算引擎
  • 顶层:基于MapReduce、Spark等计算引擎的高级封装及工具,如Hive、Pig、Mahout
核心组件
  • mapreduce:分布式批计算引擎,就是把一部分数据,拆分到多个节点,进行计算。说通俗了,就是把一个java里的数组拆分若干份,扔给多个机器上的mr进程,让它们处理,至于怎么处理逻辑都是自己写。

  • hdfs:一个分布式文件系统,这个不多说了,不了解dfs的话查查就明白。

  • yarn:资源管理调度框架,如果你写了一堆定时执行的批处理程序,想让它在一堆服务器中的任意一台运行,但是这些服务器的资源(内存、cpu)是有限的,你希望这些程序能够自动的选择一台资源相对不错的机器运行,且当服务器资源不够时,剩下尚未运行的程序需要进行等待,说白了就是能把这些服务器资源管理起来,你每次启动程序不用手动去每台机器上找,同时能监控服务器的资源使用,让它们别超标影响其他程序,还能跟着每个程序执行状况,那么yarn就是做件事情的。

2.1 hadoop 搭建

2.1.1 hadoop 下载

下载地址:https://hadoop.apache.org/releases.html

2.1.2 准备环境

jdk安装(因为 hadoop是 java 开发)

2.1.3 安装 方式

Hadoop 部署模式有:本地模式、伪分布模式、完全分布式模式、HA完全分布式模式。

区分的依据是 NameNode、DataNode、ResourceManager、NodeManager等模块运行在几个JVM进程、几个机器。

模式名称 各个模块占用的JVM进程数 各个模块运行在几个机器数上
本地模式 1个 1个
伪分布式模式 N个 1个
完全分布式模式 N个 N个
HA完全分布式 N个 N个
2.1.4 配置
2.1.5 测试

运行MapReduce程序,验证

我们这里用hadoop自带的wordcount例子来在本地模式下测试跑mapreduce。

  1. 准备mapreduce输入文件wc.input

  2. 运行 hadoop 自带的 mapreduce Demo

  3. 查看输出文件

    输出目录中有 _SUCCESS 文件说明 JOB 运行成功

具体详细的 各组件 详解详细安装教程 后续会陆续 更新

个人能力有限

欢迎大家留言,如有问题,会及时更正(接受一切正确的 建议)

官网地址:http://hadoop.apache.org/

参考:

https://www.zhihu.com/question/333417513

https://www.jianshu.com/p/0d4a365ef350

大数据时代-你需要了解的大数据处理神器-Hadoop相关推荐

  1. 欢迎来到大数据时代-----赶快来了解一些大数据的基础知识

    作者刚开始接触大数据不久,现在想通过这篇文章分享一些我学到的,我自己理解的知识:希望大家学有所获. Hadoop离线是大数据生态圈的核心与基石,是整个大数据的入门. linux.hadoop.hive ...

  2. 5000字 大数据时代读书笔记_《大数据时代读书笔记》

    大数据时代读书笔记 本书在讲些什么? <大数据时代>的一大贡献在于大数据方兴未艾.众说纷纭的时刻,进一步 阐述和厘清了大数据的基本概念和特点,这对许多以为大数据就是"数据大&qu ...

  3. 大数据时代是什么意思?大数据是什么?

    界快速虚拟化,数据的来源及其数量正以前所未有的速度增长. 伴随着云计算,大数据.物联网.人工智能等信息技术的快速发展和传统产业数字化的转型,数据量呈现几何级增长,根据市场研究资料显示,全球数据总量将从 ...

  4. 5000字 大数据时代读书笔记_《大数据时代》读后感5篇

    <大数据时代>读后感 5 篇 对于畅销书刊.热点话题.时尚科技,始终不太感兴趣.书 刊,喜欢有一定年份的.话题,钟情于务虚的观点.新奇的产品 于我无缘,习惯使用成熟的科技产品.既不清高,也 ...

  5. 大数据时代,如何才能发挥大数据在智慧城市建设中的重要作用?

    随着移动互联网.物联网.云计算等新一代信息技术的不断成熟与普及,产生了海量的数据资源,人类社会进入大数据时代.大数据不仅增长迅速,而且已经渗透到各行各业,发展成为重要的生产要素和战略资产,蕴含着巨大的 ...

  6. 大数据时代:9种从大数据中获取商业价值的方法

    很多大数据都是来自一些新的来源,这代表客户或合作伙伴互动的新渠道.和任何新的数据来源一样,大数据值得探索.通过数据探索,你可以了解一些之前所不知道的商业模式和事实真相. 关于管理大数据的调查显示,89 ...

  7. 大数据时代的网络分析,如何挖掘大数据?

    我们生活在一个互联实体(entities)构成的复杂世界中.人类涉足的所有领域,从生物学到医学.经济学和气候科学,都充满了大规模数据集. 这些数据集将实体(entities)模拟为节点.节点之间的连接 ...

  8. 数据脱敏平台-大数据时代的隐私保护利器

    什么是数据脱敏 又称数据漂白.数据去隐私化或数据变形.是对核心业务数据中敏感的信息,进行变形.转换.混淆,使得对业务数据中的身份.组织等隐私敏感信息进行去除或掩盖,以保护数据能被合理.安全地利用. 数 ...

  9. 2015年《大数据》高被引论文Top10文章No.2——大数据时代的数据挖掘 —— 从应用的角度看大数据挖掘(上)...

    2015年<大数据>高被引论文Top10文章展示 [编者按]本刊将把2015年<大数据>高被引论文Top10的文章陆续发布,欢迎大家关注!本文为高被引Top10论文的No.2, ...

最新文章

  1. npm未能加载Visual C++组件,解决办法win10
  2. Oracle 常用SQL技巧收藏
  3. html特殊文字效果,HTML几个特殊的属性标签的使用介绍
  4. 周五话分析 | 你的梦想是什么?做一个懂 Session 分析的人
  5. 学习笔记(51):Python实战编程-ListBox
  6. java mysql_Java与mysql的连接
  7. win10+Idea遇到一个bug的解决办法
  8. mysql计算相邻的差值_MySQL如何计算相邻两行某列差值
  9. 删除进程id_Mysql新增删除数据失败,提示锁表
  10. 为什么古代皇帝总是治不了腐败?因为拿得越多、越安全
  11. windows如何更改字体
  12. SPSS实现两独立样本非参数检验
  13. as常用固定搭配_as固定短语搭配
  14. [模拟] Jzoj P2499 东风谷早苗
  15. win10+ubuntu双系统下,完美卸载ubuntu
  16. harmonyos bate,HarmonyOS 生态最重的拼图,手机开发者 Beta 版终于到来
  17. Android之解析程序包时出现问题
  18. 华为nova5i计算机有计算记录吗,华为nova5i评测 值不值得买
  19. 你的用户珍贵么?杀鸡吃肉和养鸡吃蛋的选择……
  20. 这可能是前端开发中能遇到最全的cookie问题了

热门文章

  1. 程序员的算法趣题 python3 - (5)
  2. 海尔三翼鸟:生态聚拢的密度,决定场景落地速度
  3. 这10款App问题突出:强制安装捆绑应用 窃取信息偷偷吸费
  4. 74HCD164实现四位共阳数码管的动态扫描与六个按键实现继电器的通断程序
  5. 泊松分酒--蓝桥杯java历年真题
  6. 正则表达式 检索字符串
  7. anaconda的python如何降级_如何使用Anaconda将IPython4降级为3
  8. Android设计应用图标不用愁---Asset Studio Integration来帮你
  9. android 按钮旋转等待,旋转框架布局,其中包含动态按钮
  10. 36种简便、有效的记忆方法(摘抄)