赵丽颖固然漂亮,可这份Hadoop核心教程也不差呀
阿里巴巴采用了 15 个节点组成的 Hadoop 集群,用于处理从数据库中导出的商业数据的排序和组合。
***Ebay ***使用了 32 个节点组成的集群,包括 8 * 532 个计算核心以及 5.3 PB 的存储。该公司大量使用了 Java 编写的 MapReduce 应用,以及 Pig 、 Hive 和 HBase 的组合应用以研究搜索优化。
***Facebook ***主要使用 Hadoop 来存储内部日志和结构化数据源的副本,并且将其作为数据报告、数据分析和机器学习的数据源。
什么是Hadoop?
Apache Hadoop 是一款支持数据密集型分布式应用并以 Apache 2.0 许可协议发布的开源软件框架。
Hadoop 框架透明地为应用提供可靠性和数据移动。它实现了名为 MapReduce 的编程范式:应用程序被分割成许多小部分,而每个部分都能在集群中的任意节点上执行或重新执行。
此外,Hadoop 还提供了分布式文件系统,用以存储所有计算节点的数据,这为整个集群带来了非常高的带宽。
核心概念
Hadoop 项目主要包含了以下四个模块:
1. Hadoop 通用模块(Hadoop Common): 为其他 Hadoop 模块提供支持的公共实用程序。
2. Hadoop 分布式文件系统(HDFS, Hadoop Distributed File System):提供对应用程序数据的高吞吐量访问的分布式文件系统。
3. Hadoop YARN:任务调度和集群资源管理框架。
4. Hadoop MapReduce: 基于 YARN 的大规模数据集并行计算框架。
对于初次学习 Hadoop 的用户而言,应重点关注 HDFS 和 MapReduce。作为一个分布式计算框架,HDFS 承载了该框架对于数据的存储需求,而 MapReduce 满足了该框架对于数据的计算需求。
下图是 Hadoop 集群的基本架构:
Hadoop 生态体系
如同 Facebook 在 Hadoop 的基础上衍生了 Hive 数据仓库一样,社区中还有大量与之相关的开源项目,下面列出了一些近期比较活跃的项目:
**HBase:**一个可伸缩的、支持大表的结构化数据存储的分布式数据库。
**Hive:**提供数据汇总和临时查询的数据仓库基础框架。
**Pig:**用于并行计算的高级数据流语言和执行框架。
**ZooKeeper:**适用于分布式应用的高性能协调服务。
**Spark:**一个快速通用的 Hadoop 数据计算引擎,具有简单和富有表达力的编程模型,支持数据 ETL(提取、转换和加载)、机器学习、流处理和图形计算等方面的应用。
值得特别关注的是,Spark 这一分布式内存计算框架就是脱胎于 Hadoop 体系的,它对 HDFS 、YARN 等组件有了良好的继承,同时也改进了 Hadoop 现存的一些不足。部分学习者可能会对 Hadoop 和 Spark 的使用场景重叠产生疑问,但学习 Hadoop 的工作模式和编程模型,将有利于加深对 Spark 框架的理解,这也是本系列课程首先学习 Hadoop 的原因。
部署 Hadoop
Hadoop 主要有以下三种部署模式:
**单机模式:**在单台计算机上以单个进程的模式运行。
**伪分布式模式:**在单台计算机上以多个进程的模式运行。该模式可以在单节点下模拟“多节点”的场景。
**完全分布式模式:**在多台计算机上分别以单个进程的模式运行。
具体的部署步骤以及详细的教程大家可以 点击我 进行学习,因为内容还是比较广泛和充实的:
实验1:Hadoop 简介与安装部署
挑战1:Hadoop 系统部署
实验2:HDFS 架构与操作
实验3:MapReduce 原理与实践
挑战2:使用 MapReduce 进行日志分析
实验4:YARN 架构
挑战3:用 Hadoop 计算圆周率
实验5:HBase 基础
挑战4:HBase 数据导入
实验6:Sqoop 数据迁移
挑战5:HBase 实现 Web 日志场景数据处理
实验7:Solr 基础实战
实验8:Hive 基础实战
挑战6:导入数据到 Hive
实验9:Flume 基础实战
实验10:Flume、HDFS 和 Hive 实现日志收集和分析
挑战7:用 Flume 和 MapReduce 进行日志分析
实验11:Kafka 基础实战
挑战8:按需部署 Kafka
实验12:使用 Flume 和 Kafka 实现实时日志收集
实验13:Pig 基础实战
只要是你有一定的计算机基础和 Java 基础,并且对 Hadoop 感兴趣,相信都是可以完整地学下来的,大家加油!
相关阅读
8个爽滑的Windows小软件,不好用你拿王思葱砸死我
60人,42天,死磕机器学习,结果如下。
武侠版编程语言…Java像张无忌还是令狐冲?
大量机器学习&深度学习资料
技术变现,到底怎么变?
赵丽颖固然漂亮,可这份Hadoop核心教程也不差呀相关推荐
- hadoop yarn 获取日志_赵丽颖固然漂亮,可这份Hadoop核心教程也不差啊!
阿里巴巴采用了 15 个节点组成的 Hadoop 集群,用于处理从数据库中导出的商业数据的排序和组合. Ebay 使用了 32 个节点组成的集群,包括 8 * 532 个计算核心以及 5.3 PB 的 ...
- Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解
编者按:HDFS和MapReduce是Hadoop的两大核心,除此之外Hbase.Hive这两个核心工具也随着Hadoop发展变得越来越重要.本文作者张震的博文<Thinking in BigD ...
- Thinking in BigData(八)大数据Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解
纯干货:Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解. 通过这一阶段的调研总结,从内部机理的角度详细分析,HDFS.MapReduce.Hbase.H ...
- Hadoop核心介绍课程笔记
Hadoop历史 雏形开始于2002年的Apache的Nutch,Nutch是一个开源Java 实现的搜索引擎.它提供了我们运行自己的搜索引擎所需的全部工具.包括全文搜索和Web爬虫. 随后在2003 ...
- hadoop---(1)hadoop核心知识点总结
hadoop核心知识点总结 1. 安装hadoop需要配置的hadoop中的配置文件有哪些? hadoop-env.sh yarn-env.sh core-site.xml hdfs-site.xm ...
- Hadoop核心之MapReduce架构设计
Hadoop主要由两大部分组成,一个是分布式文件系统即HDFS,另一个是分布式计算框架MapReduce. 关于HDFS详细介绍请参考:[Hadoop核心之HDFS 架构设计] 本篇重点介绍分布式计算 ...
- 大数据开发基础入门与项目实战(三)Hadoop核心及生态圈技术栈之2.HDFS分布式文件系统
文章目录 前言 1.HDFS特点 2.命令行和API操作HDFS (1)Shell命令行客户端 (2)API客户端连接HDFS的两种方式 (3)API客户端上传下载文件 (4)API客户端文件详情及文 ...
- 《Hadoop基础教程》之初识Hadoop
Hadoop一直是我想学习的技术,正巧最近项目组要做电子商城,我就开始研究Hadoop,虽然最后鉴定Hadoop不适用我们的项目,但是我会继续研究下去,技多不压身. <Hadoop基础教程> ...
- hadoop基础教程
Hadoop一直是我想学习的技术,正巧最近项目组要做电子商城,我就开始研究Hadoop,虽然最后鉴定Hadoop不适用我们的项目,但是我会继续研究下去,技多不压身. <Hadoop基础教程> ...
最新文章
- jquery判断一个元素是否为某元素的子元素
- GreenDao 使用方法:
- keil5图标变成白色_PPT中高大上的图标是怎么做的?
- mpython_mPython
- SqlSever分页查询,仅扫描一次表
- Java后端--25--内存数据库Redis讲解
- java 各种数据库连接_JAVA连接各种数据库
- Java实验8 T3.编程显示当前鼠标的位置坐标
- oracle 除法问题,javascript中除法问题
- 基于深度学习的问答系统论文
- 听说Unscrambler HSI是个很牛的光谱分析软件?
- 记vsftpd虚拟用户登录返回530 Login incorrect解决过程
- php工具箱mysql启动不_解决php工具箱(phpStudy)Apache启动成功,MySql无法启动的问题...
- 小觅相机运行VINS-Fusion(二)——Camera-IMU参数标定
- Heli Track
- SAP系统管理的常用T-CODE
- FIN_WAIT_1/FIN_WAIT_2
- js 原子级操作_原子操作与同步机制
- 大明宫、浐灞湿地公园
- python一元线性回归的优点_Python数据分析之一元线性回归
热门文章
- ionic 实现仿苹果手机通讯录搜索功能
- 当我真正开始爱自己——查理·卓别林
- 经常使用命令 echo、@、call、pause、rem
- P2324 骑士精神
- [Swift]LeetCode498. 对角线遍历 | Diagonal Traverse
- 设置主机名 centos redhad7
- linux实现免密登陆
- QuickContactBadge--------------关联联系人-----------------------
- navicat for mysql 如何将表ID排序重1开始?
- 【大话hibernate】hibernate系统学习大合集