1、什么是大数据?

基本概念

在互联网技术发展到现今阶段,大量日常、工作等事务产生的数据都已经信息化,人类产生的数据量相比以前有了爆炸式的增长,以前的传统的数据处理技术已经无法胜任,需求催生技术,一套用来处理海量数据的软件工具应运而生,这就是大数据!

换个角度说,大数据是:

1、有海量的数据

2、有对海量数据进行挖掘的需求

3、有对海量数据进行挖掘的软件工具(hadoop、spark、storm、flink、tez、impala......)

大数据在现实生活中的具体应用

电商推荐系统:基于海量的浏览行为、购物行为数据,进行大量的算法模型的运算,得出各类推荐结论,以供电商网站页面来为用户进行商品推荐。

精准广告推送系统:基于海量的互联网用户的各类数据,统计分析,进行用户画像(得到用户的各种属性标签),然后可以为广告主进行有针对性的精准的广告投放。

2、那什么是hadoop呢?

hadoop中有3个核心组件:

分布式文件系统:HDFS —— 实现将文件分布式存储在很多的服务器上

分布式运算编程框架:MAPREDUCE —— 实现在很多机器上分布式并行运算

分布式资源调度平台:YARN —— 帮用户调度大量的mapreduce程序,并合理分配运算资源

3、最后来说一下hdfs整体运行机制

hdfs:分布式文件系统

hdfs有着文件系统共同的特征:

1、有目录结构,顶层目录是:  /

2、系统中存放的就是文件

3、系统可以提供对文件的:创建、删除、修改、查看、移动等功能

hdfs跟普通的单机文件系统有区别:

1、单机文件系统中存放的文件,是在一台机器的操作系统中

2、hdfs的文件系统会横跨N多的机器

3、单机文件系统中存放的文件,是在一台机器的磁盘上

4、hdfs文件系统中存放的文件,是落在n多机器的本地单机文件系统中(hdfs是一个基于linux本地文件系统之上的文件系统)

hdfs的工作机制:

1、客户把一个文件存入hdfs,其实hdfs会把这个文件切块后,分散存储在N台linux机器系统中(负责存储文件块的角色:data node)<准确来说:切块的行为是由客户端决定的>

2、一旦文件被切块存储,那么,hdfs中就必须有一个机制,来记录用户的每一个文件的切块信息,及每一块的具体存储机器(负责记录块信息的角色是:name node)

3、为了保证数据的安全性,hdfs可以将每一个文件块在集群中存放多个副本(到底存几个副本,是由当时存入该文件的客户端指定的)

综述:一个hdfs系统,由一台运行了namenode的服务器,和N台运行了datanode的服务器组成!

简单聊一下什么是大数据,hadoop和hdfs又是什么?相关推荐

  1. 从零开始大数据--Hadoop、HDFS、MapReduce、HBase、Hive

    文章目录 概述 Hadoop HDFS HBase 实现原理 Regin服务器原理 HBase安装与使用 NoSQL数据库 MapReduce Hive 概述 IT领域每隔十五年就会迎来一次重大变革: ...

  2. 大数据Hadoop之HDFS和MapReduce_02_01

    Hadoop 主要由HDFS和MapReduce 引擎两部分组成.最底部是HDFS,它存储hadoop集群中所有存储节点上的文件.HDFS 的上一层是MapReduce 引擎,该引擎由JobTrack ...

  3. java基础巩固-宇宙第一AiYWM:为了维持生计,大数据Hadoop之HDFS分布式文件系统(HDFS读写流程、主从集群两种问题“单点故障”及“压力过大内存受限”、HDFS的架构设计)~整起

    Hadoop之HDFS 目录 一.大数据 二.HADOOP 三.HDFS 1.HDFS基本概念 2.HDFS的架构设计 3.HDFS自己对于上面两种数据持久化技术的实现: 4.HDFS读写流程 5.H ...

  4. (超详细)大数据Hadoop之HDFS组件

    一. HDFS简介 1.1 HDFS的概述 在Hadoop生态圈中,HDFS属于底层基础,负责存储文件. 1.2 HDFS产生背景 HDFS全称为Hadoop Distributed File Sys ...

  5. 大数据Hadoop之——总结篇

    文章目录 一.前言 二.Hadoop 1)HDFS常见操作 1.HDFS服务启停命令 2.常见文件操作命令 3.安全模式操作命令 4.数据平衡常见操作命令 5.处理小文件常见操作命令 6.HDFS N ...

  6. 大数据Hadoop之——EFAK和Confluent KSQL简单使用(kafka listeners 和 advertised.listeners)

    文章目录 一.EFAK概述和安装 二.listeners和advertised.listeners配置详解 三.KSQL使用 1)KSQL架构 2)Confluent安装(ZK/KAFKA/KSQL) ...

  7. 2021年大数据Hadoop(一):​​​​​​​Hadoop介绍

    2021大数据领域优质创作博客,带你从入门到精通,该博客每天更新,逐渐完善大数据各个知识体系的文章,帮助大家更高效学习. 有对大数据感兴趣的可以关注微信公众号:三帮大数据 Hadoop介绍 Hadoo ...

  8. 大数据与Hadoop有什么关系?大数据Hadoop入门简介

    学习着数据科学与大数据技术专业(简称大数据)的我们,对于"大数据"这个词是再熟悉不过了,而每当我们越去了解大数据就越发现有个词也会一直被提及那就是--Hadoop 那Hadoop与 ...

  9. 涵盖从java入门到深入架构,Linux、云计算、分布式、大数据Hadoop、ios、Android、互联网技术应有尽有

    [涵盖从java入门到深入架构,Linux.云计算.分布式.大数据Hadoop.ios.Android.互联网技术应有尽有] 1.javascript视频教程 链接: http://pan.baidu ...

最新文章

  1. 马斯克“口无遮拦”发推特又挨批,被指无视法院命令
  2. ASP.NET 5 RC 1:UrlRouting 设置(不包含MVC6的UrlRouting设置)
  3. [转]Visual Studio 2010帮助文件MSDN安装说明
  4. 浓烟滚滚!某市联通集体断网,谁的锅?
  5. 【渝粤教育】国家开放大学2019年春季 0691-22T物理化学及实验 参考试题
  6. android 下载器布局,Android Studio下载约束布局失败
  7. 02、MySQL—数据库基本操作
  8. ubuntu 20.04双系统安装_win10上跑Ubuntu不用虚拟机不用双系统!
  9. 2021-2025年中国制药行业MR报告软件行业市场供需与战略研究报告
  10. python视频人脸识别教程_Python学习笔记之视频人脸检测识别实例教程
  11. linux内核之设备驱动
  12. Qt 之播放m3u8视频流
  13. 2022年黑龙江二级建造师公路工程《公路隧道工程》精选题及答案
  14. 2、解读中台 -- 中台的作用
  15. 威廉玛丽学院计算机教授刘旭,国家超级计算济南中心,欢迎您!
  16. edge microsoff 连不上网_win10电脑连不上网的三种解决方法
  17. echarts——横向柱状图
  18. 山东大学移动信息门户03
  19. 浅谈大型互联网的企业入侵检测及防护策略
  20. 微信小程序富文本标签 rich-text 图片自适应大小问题

热门文章

  1. HTC ONE M7 ROOT后恢复 原始状态(保修)
  2. pink老师 js p85思考题
  3. Always Day1 学会爱自己才能好好爱别人
  4. vue中v-for写在template上,加key提示错误
  5. Power Supply---驱动框架
  6. wps word修改目录行间距后出现空行的现象,且删除按键无效
  7. 波特率、比特、字、千字节、兆、G之间转换
  8. 宇宙最强vscode教程
  9. 技术手段VBA之爬虫
  10. ELK搭建毫秒级响应社工裤