一、集群安装监控和管理

模块一 EasyHadoop集群入门 
·Hadoop暴风应用案例 http://tech.watchstor.com/spec/salon/20120512/#585565-baidu-1-49444-69d7345a4fe33e9a9d9dabb775dd2d10
·EasyHadoop Manager安装及部署  
模块二 Hadoop集群管理
·Hadoop常见使用命令 
·Hadoop运维故障及解决 
·Hadoop使用工具 
·Hadoop其他应用案例 
    
 模块三 EasyHadoop集群配置:机架感知,开启压缩和任务均衡 
·Hadoop 集群安装和开启LZO压缩
·Hadoop 配置集群具备机架感知
·Hadoop 集群开启公平任务调度器
·Hadoop 集群开启能力任务调度器 
 模块四 Hadoop 集群维护与管理 
·查看集群状态
·HDFS数据管理
·Mapreduce 任务管理
·HDFS安全模式
·模拟集群Namenode,jobtrack失效
·添加删除节点
·数据平衡
·文件数据跨集群拷贝
·集群升级 
 模块五 Hadoop 集群规划和测试 
·集群规划(硬件,系统,网络)
·集群性能测试 
 模块六 Hadoop 集群监控和运维 
·使用Ganglia 监控Hadoop集群
·使用Cacti 监控操作系统 
 模块七 Hadoop HDFS高可用 
·Hadoop 元数据NFS备份方案
·Hadoop SecondaryNameNode备份方案 
·Hadoop CheckpointNode备份方案 
·Hadoop BackupNode备份方案 
·Hadoop Cloudera HA Namenode 方案

二、MapReduce编程基础

模块一 Hadoop MapReduce流程分析  
·Hadoop JobTracker 详解回顾
·Hadoop TaskTracker 详解回顾
·Hadoop 任务提交流程详解
模块二 使用 Hadoop MapReduce Streaming 编程  
·Hadoop Streaming 和 Java MapReduce Api 差异。
·学习使用 MapReduce 实现数据库功能,比如select group by join union all )
模块三 MapReduce分布式程序  
·MapReduce流程
·剖析一个MapReduce程序
·基本MapReduceAPI 概念
·驱动代码
·Mapper
·Reducer
·API 使用Eclipse进行快速开发
·上机实验
·新MapReduce API 
模块四 Hadoop 核心代码导读  
·Hadoop Mapper 类核心代码导读
·Hadoop Reducer 类核心代码导读
模块五 HDFS分布式文件系统编程   
·Hadoop HDFS 回顾
·Hadoop NameNode 回顾
·Hadoop DataNode 回顾
·hadoop I/O 操作
·使用Hadoop HDFS API对HDFS编程
模块六 Hadoop Mapreduce高级编程  
· ToolRunner介绍
·使用MRUnit进行测试
·利用Combiners来减少中间数据
·使用Configure和Close方法来进行Map/Reduce设置和关闭
·编写Partitioner来优化负载平衡
·上机实验
·直接访问Hadoop分布式文件系统(HDFS)
·使用分布式缓存(Distributed Cache)
·上机实验 
模块七 MapReduce的优化   
·map优化
·reduce优化
·小文件优化
模块八 MapReduce的任务调度   
·Queue调度的使用
·公平调度的使用
·能力调度的使用
模块九 MapReduce编程实战  
·Hadoop的join操作
·Hadoop的二次排序
·Hadoop的海量日志分析
模块十 flume+hadoop日志的收集实战  
·flume介绍
·flume核心组件讲解
·flume自带的组件分析
·flume二次开发实战

三、Hive、Pig、Mahout 数据挖掘

数据挖掘
模块一 EasyHive仓库集群  
·Hive的作用和原理说明
·Hadoop仓库和传统数据仓库的协作关系
·Hadoop/Hive仓库数据数据流
·Hive 部署和安装
·Hive Cli 的基本用法
·HQL基本语法 
 模块二 EasyHive仓库集群高级 
·使用JDBC 连接Hive进行查询和分析
·使用正则表达式加载数据
·HQL高级语法
·编写UDF函数 
 模块三 EasyHive仓库优化 
·使用Hive分区优化查询
·使用Lzo压缩优化数据存储容量
·HiveServer HA (使用haproxy提高HiveServer可用性)
·编写Hive自定义MapReduce脚本优化查询
·Hive数据倾斜和查询性能优化 
 模块四 EasyHive仓库外围系统 
·使用Sqoop进行数据分析
·使用oozie配置工作流
·phpHiveAdmin 安装和使用 
 Mahout数据挖掘
 模块一 推荐算法 
·推荐算法介绍
·item-base 算法mapreduce 实现 
 模块二 分类算法 
·基于MapReduce的文本分类算法 
 模块三 聚类算法 
·聚类算法原理介绍 
·使用MapReduce研发聚类算法 
 模块四 其他挖掘算法 
·关联规则算法和MapReduce实现 
·标签传播算法和MapReduce实现

四、HBase入门和高级 
模块一 HBase简介和架构(0.5h) 
HBase基本概念
HBase架构和核心模块介绍
HBase存储逻辑结构介绍 
模块二 HBase核心知识点(0.5h) 
基本方法:Get/Put/Scan/Delete
列式存储核心:LSM
日志系统:WAL
底层存储:HFile
复制、备份:Replication
过渡期:RIT
分裂、合并:Split/Compact
负载均衡:Load Balance 
 模块三 HBase高级应用简单介绍(0.5h) 
批量记载:bulk load
监控系统:OpenTSDB
主键设计:key design
二级索引:secondary index
协处理器:Coprocessors
过滤器:bloomfilter
版本:version 
 模块四 安装、部署、启动(2h) 
集群下安装部署HBase
启动HBase,启动顺序
测试启动多种方法 
 模块五 常用接口介绍、案例讲解(2.5h) 
native java接口
shell client
thrift接口
“用户搜索日志查询系统”案例讲解(包含2种接口实现、随机批量写入、查询用户搜索结果) 
五、Hadoop数据与集群安全 
 模块一 安全开放hadoop集群概述 小集群蜕变为开放平台要素 
 模块二 hadoop安全认证 kerberos认证协议分析、hadoop集成kerberos配置、kerberos管理与应用 
 模块三 hadoop权限控制 自定义权限模块、用户权限组划分、资源权限规划、队列池管理 
 模块四 hadoop灾备 数据迁移、通过案例描述灾难发生带来的损失、HA方案、次灾备方案 
 模块五 运营监控及报表 MapReduce自动化诊断、运营数据采集、运营报表分析、集群参数优化 
六、集群环境调优与Debug

hadoop学习提纲相关推荐

  1. Hadoop学习笔记一 简要介绍

    Hadoop学习笔记一 简要介绍 这里先大致介绍一下Hadoop.     本文大部分内容都是从官网Hadoop上来的.其中有一篇介绍HDFS的pdf文档,里面对Hadoop介绍的比较全面了.我的这一 ...

  2. 我的hadoop学习之路

    Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS.HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上. Ha ...

  3. Hadoop学习笔记(1) ——菜鸟入门

     Hadoop学习笔记(1) --菜鸟入门 Hadoop是什么?先问一下百度吧: [百度百科]一个分布式系统基础架构,由Apache基金会所开发.用户能够在不了解分布式底层细节的情况下.开发分布式 ...

  4. Hadoop学习笔记(1)

    原文:http://www.cnblogs.com/zjfstudio/p/3859704.html Hadoop学习笔记(1) --菜鸟入门 Hadoop是什么?先问一下百度吧: [百度百科]一个分 ...

  5. Hadoop学习笔记—18.Sqoop框架学习

    Hadoop学习笔记-18.Sqoop框架学习 一.Sqoop基础:连接关系型数据库与Hadoop的桥梁 1.1 Sqoop的基本概念 Hadoop正成为企业用于大数据分析的最热门选择,但想将你的数据 ...

  6. [Hadoop] Hadoop学习历程 [持续更新中…]

    1. Hadoop FS Shell Hadoop之所以可以实现分布式计算,主要的原因之一是因为其背后的分布式文件系统(HDFS).所以,对于Hadoop的文件操作需要有一套全新的shell指令来完成 ...

  7. Hadoop学习全程记录——在Eclipse中运行第一个MapReduce程序

    网友分享,拿来共享一下 这是Hadoop学习全程记录第2篇,在这篇里我将介绍一下如何在Eclipse下写第一个MapReduce程序. 新说明一下我的开发环境: 操作系统:在windows下使用wub ...

  8. Hadoop学习笔记—20.网站日志分析项目案例(一)项目介绍

    Hadoop学习笔记-20.网站日志分析项目案例(一)项目介绍 网站日志分析项目案例(一)项目介绍:当前页面 网站日志分析项目案例(二)数据清洗:http://www.cnblogs.com/edis ...

  9. Hadoop学习笔记(8) ——实战 做个倒排索引

    Hadoop学习笔记(8) --实战 做个倒排索引 倒排索引是文档检索系统中最常用数据结构.根据单词反过来查在文档中出现的频率,而不是根据文档来,所以称倒排索引(Inverted Index).结构如 ...

最新文章

  1. 不得不了解系列之限流
  2. 无线红外探测器03-环境搭建及程序详解
  3. BS-XX-042 基于SSM实现人事管理系统
  4. springboot整合mybatis增删改查(三):mybatis逆向工程
  5. 我觉得要技术者上升到整体去考虑会好点
  6. oracle中用START WITH...CONNECT BY PRIOR子句实现递归查询
  7. vue 列表渲染 v-for
  8. 【工具】FTP软件FileZilla下载和连接服务器
  9. 中国内窥镜干燥存放柜市场趋势报告、技术动态创新及市场预测
  10. 如何在VUE项目中使用前端数据库WebSQL
  11. Android隐藏应用桌面图标/动态修改桌面图标
  12. 十大经典算法及其优化
  13. -XX:NewRatio 命令
  14. 怎么画头发?怎样才能画好人物头发?
  15. flyway 实现 java 自动升级 SQL 脚本
  16. 移动端天气系统--【下雨】效果之【雨滴】的实现和分析
  17. 服务器开启虚拟控制台
  18. 抖音短视频流量获取攻略,掌握好这些一定可以出爆款
  19. Web 2.0概念地图-from Tim Oreilly
  20. 干货转发,【CDN市场洗牌悄然开始,行业黑马云帆加速又获金榜题名】

热门文章

  1. Docker 文件存储驱动:AUFS 文件系统原理及生产环境的最佳配置
  2. 贵州烟草大数据之一:零售户聚类
  3. 2021上海益生产品(益生菌)展告知您吃益生菌多久才有效?
  4. Bookxnote+坚果云实现双PC同步
  5. 第一次面试成都某游戏公司时的题目
  6. 树莓派--街机网址链接
  7. 基于TC275的电机控制器
  8. Cesium已知经纬度获取其高度
  9. qt+opencv配置
  10. python数据处理之批量下载