大数据基础知识

一、什么是大数据

短时间内快速产生的海量的多种多样的有价值的数据。

大数据的技术:

1、分布式存储:

2、分布式计算:

1)分布式批处理:
 当数据积累一定的时间后(假设一个月),进行统一的处理。
2)分布式流处理
分布式流处理是一个实时的处理。即数据生成后立即处理。
例子:  11.11天猫大屏幕     QQ实时在线的分布情况

3、机器学习

凡是预测类的都是机器学习。

分布式存储

简单案例:假如你要存储10PB的一个视频文件,自己一个人的电脑存储不了,需要存储在多个服务器上,每一个服务器就是一个datanode,当你需要获取文件时,逐一访问效率太低,可以找一个中间人来存放文件在哪台服务器的信息,通过信息可以快速的找到文件。这个中间人就是namenode,存储的有关文件的信息就是元数据。为了数据安全,每一个小的视频(存储单元)复制一份存放到不同服务器上,当有服务器停止运行时,可以通过访问备份来寻找到自己想要的数据,这种存储方式叫做分布式存储。

系统学习分布式存储 过程(HDFS原理)

1 如果要上传一个大文件,首先要计算大文件的block数量,block数量=大文件的大小/128M(一般采用128M为一个block块的大小)
2 client会向namenode汇报
1)当前大文件的block数量
2)当前大文件属于谁 权限
3)上传时间
namenode的作用:
掌握全局,管理datanode以及元数据
元数据存储在内存中
接受客户端client的读写服务
收集datanode汇报的block列表的信息
namenode保存metadata信息包括
文件的owner和permissions
文件的大小,时间
(block列表:blockId)
block副本的位置(由datanode上报)
3由于文件太大,超过128M所以得切割出来一个个的block,先切割一个block块
4namenode去请求block块的Id号以及地址
5因为namenode能够掌握全局,管理所有的datanode,所以它会将负载不高的datanode的地址返回给client
6client拿到地址后,找到datanode上传数据,
如何上传:
namenode将地址返回后,block会切割成一个个的packet,这些datanode之间会形成一个Pipeline管道,目的是:并行存储,提高效率。

7datanode拿到地址后,会向namenode回报当前的存储情况。
datanode的作用:
存储block块,向namenode汇报发送心跳,发送心跳是为了让namenode知道自己在正常运行
接受client的读请求,client不仅可以向datanode写数据,也可以读数据,获取到地址后直接读取。
8client继续切割,直到上传完成所有的数据。

问题:

考虑到安全问题,数据做了两个备份(默认两份),所以在第6步上传数据的时候,是向多台服务器传递数据。
多台??:(1)如果是集群(多台服务器组成)外namecode向client返回的三个地址,第一个是负载不高的datanode,第二个地址是在其他机架(有多台服务器)的随机一个服务器上第三个地址是和第二个我地址位于同一个机架的其他服务器上。如果一个机架出现问题,数据也不会丢失。
(2)如果是集群内返回地址,第一个位置是当前的节点,第二个,第三个同上

namenode工作原理:

基本结构
edits:存储操作信息

edits保存了namenode的操作信息,当edits文件中的数据达到一定的数量(64M)或者时间超过了规定的时间时,secondnamenode会将edits和fsimage,同时namenode生成新的edits.new去记录操作,在secondnamenode中,会模拟执行edits文件,产生元数据,并将元数据与fsimage合并,合并之后将fsimage推送给namenode,edits.new成为新的edits。这个过程就是元数据的持久化。
不是所有的元数据都会持久化,block的位置就不会,因为每次集群启动时,服务器会自己将block的位置传递给namenode.

注意:

1 安全模式:
1)加载fsimage,加载到内存
2)如果edits文件不为空,那么namenode自己来合并
3)检查datanode是否健康
4)如果有datanode不正常,指挥做备份
2处于安全模式的过程中,如果fsiamge已经加载到内存中,可以查看到文件目录,但是无法读取
3HDFS权限控制:防君子,不妨小人
4HDFS集群不允许修改,文件一旦上传成功不能修改block块的大小,禁掉的功能就是为了防止集群泛洪

分布式存储 HDFS原理相关推荐

  1. hadoop2.2.0 分布式存储hdfs完全分布式搭建及功能测试记录(一)----架构及原理介绍...

    0.文档说明: 本文是围绕hadoop2.2的分布式文件系统hdfs进行分布式存储功能测试,形成的hdfs分布式存储功能测试报告,其中主要包括三大部分内容: 第一部分介绍了hdfs的基本原理: 第二部 ...

  2. HDFS原理 | 一文读懂HDFS架构与设计

    1 前言 HDFS(Hadoop Distributed File System)是我们熟知的Hadoop分布式文件系统,是一个高容错的系统,能提供高吞吐量的数据访问,非常适合大规模数据集上的应用.H ...

  3. HDFS 原理、架构与特性介绍--转载

    原文地址:http://www.uml.org.cn/sjjm/201309044.asp 本文主要讲述 HDFS原理-架构.副本机制.HDFS负载均衡.机架感知.健壮性.文件删除恢复机制 1:当前H ...

  4. 漫画讲解HDFS原理

    HDFS简介 Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统.它和现有的分布式文件系统有很多共同点.但同时,它和其他的分布式 ...

  5. Hadoop之深入HDFS原理<一>

    1.HDFS原理 1.三大组件(NameNode.DataNode.SecondaryNameNode) 2.NameNode a.作用:存储元数据(文件名.创建时间.大小.权限.文件与block块映 ...

  6. Hadoop之分布式存储HDFS和离线计算MapReduce

    2019独角兽企业重金招聘Python工程师标准>>> 1.Hadoop简介 Apache Hadoop软件库是一个框架,允许在集群服务器上使用简单的编程模型对大数据集进行分布式处理 ...

  7. (转载)深入分析HDFS原理及读写流程

    一.架构体系 1.1.什么是HDFS? HDFS即Hadoop Distributed File System的简称,采用Master/Slave主从结构模型来管理数据.在设计上采用了分而治之的思想, ...

  8. HDFS原理深入理解

    1.HDFS概述 1)数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就       是分 ...

  9. Hadoop分布式文件系统——HDFS原理简介

    阅读前必看 这篇文章与其说是一篇文章,不如说是一篇在家学习的笔记,其中大部分内容来自于github上一个大神的开源笔记,在此附上链接,表达版权所属以及敬意:github源地址 一.介绍 HDFS(Ha ...

最新文章

  1. “北京今年入冬的第一场雪”,纪念博客园写日志一年了
  2. Linux实战教学笔记32:企业级Memcached服务应用实践
  3. Java 理论与实践: 流行的原子——新原子类是 java.util.concurrent 的隐藏精华(转载)...
  4. ASP.NET MVC5+EF6+EasyUI 后台管理系统(63)-WebApi与Unity注入
  5. ubuntu版本号查询
  6. 【Java】计算8+88+888+8888+....前12项的和
  7. 计算机网络基本操作命令的使用,计算机网络-路由器基本命令操作实验指导书--华为...
  8. MTKP60 vs MSM 660
  9. DXOMark公布最新相机综合评分:华为P30 Pro不再是唯一王者
  10. c#定时备份mysql数据库_C# 定时备份数据库工具源码下载
  11. CCNA配置试验之八 帧中继——点到点子接口(point-to-point)的配置
  12. ALFA机器视觉深度学习外观检测自学习人工智能软件——红色工具
  13. Python0基础(中)——期末不挂科
  14. 机器学习入门:Kaggle -titanic(泰坦尼克)生存预测
  15. 课程笔记《碳中和产业报告》
  16. 小米生态企业强力推荐的开源免费SRM采购管理平台功能介绍
  17. Android使用WebView无法显示网页
  18. 用python对CSV文件中的数据进行统计分析
  19. 什么是重放攻击与中间人攻击?
  20. 逻辑回归 — Sigmoid函数 —预测是否出现过交通事故

热门文章

  1. 索爱迷你版 Xperia X10 现身,代号 Robyn
  2. 一个好的产品经理如何把控项目进度和跟进进度
  3. 蓝牙耳机到底哪款好?纠结症一定要知道的蓝牙耳机冷知识
  4. 进职场记(二)-培训
  5. vue实现表格的‘模板下载‘功能
  6. 推荐3dMax三维设计十大插件
  7. matlab 符号的值,matlab solve 符号 转换为值
  8. OffSet和Utc
  9. http://studyai.com/
  10. 隐写文件的识别和解码工具——中国的Stegohunt——隐译