目录

①大数据(Big Data)与云计算、物联网的相互关系

②介绍Hadoop、MapReduce、HDFS和HBase以及其他功能组      件,复习重点以及其他可用点!

一 大数据介绍

1信息科技为大数据时代提供技术支撑

2数据产生方式的变革促成大数据时代的来临

3大数据特点

4大数据影响

5大数据关键技术

6 大数据产业

7大数据与云计算、物联网的关系

二  Hadoop

1.Hadoop基础了解与使用

2.hdfs相关命令

3.分布式文件系统HDFS


①大数据(Big Data)与云计算、物联网的相互关系

②介绍Hadoop、MapReduce、HDFS和HBase以及其他功能组      件,复习重点以及其他可用点!

三次信息化浪潮

一 大数据介绍

1信息科技为大数据时代提供技术支撑

☺存储设备容量不断增加

☺CPU处理能力大幅提升

☺网络带宽不断增加

2数据产生方式的变革促成大数据时代的来临

·运营式系统阶段

·拥护原创内容阶段

·感知式系统阶段

3大数据特点

①数据量大

②数据类型繁多

③处理速度快

④价值密度低

4大数据影响

四种范式:

实验科学   理论科学 计算科学 数据密集型科学

5大数据关键技术

层面分为:

数据采集与预处理

数据存储和管理

数据处理与分析

数据安全与隐私保护

数据计算模式分为:

批处理计算  MapReduce  Spark

图计算  百度的DStream  淘宝的银河流数据处理平台

图计算  Pregel

查询分析计算 Impala

6 大数据产业

IT基础建设层

数据源层

数据管理层

数据分析层

数据平台层

数据应用层

7大数据与云计算、物联网的关系

云计算:虚拟化 分布式存储 分布式计算 多租户

物联网:识别和感知技术 网络与通信技术 数据挖掘和融合技术

二  Hadoop

1.Hadoop的基础了解及使用

Hadoop是一个开源的,可运行于大规模集群上的分布式计算平台,具有MapReduce计算模型和分布式文件系统HDFS等功能。它具有可靠性,高效,可维持的特性。

在后续开发Hadoop2.0,实现联邦集群管理和YARN资源管理

它包含Map和Reduce操作,尤其是suffer操作很重要

它与后来的spark平台有相对的比较

在Hadoop生态系统中包含了很多其他的组件。如Zookepper,hive仓库

Hadoop自带有hdfs分布式系统,可以进行相关的shell命令

在Hadoop的安装中注意相关文件的配置,熟悉相关的命令

在后续Hbase数据库等都在Hadoop上进行运行

2关于hdfs分布式系统中的一些常用命令

1》创建文件:

mkdir创建文件夹:hdfs fs -mkdir [-p] < paths >      hdfs dfs -mkdir /jdh
 touchz新建文件:hdfs fs -touchz URI [URI …]      hdfs dfs -touchz /jdh

2》显示文件:

显示目录与文件名:hdfs dfs -ls [-d][-h][-R] < paths >

d 列出/test目录信息    -h列出目录和文件的大小   -R循环列出目录、子目录及文件信息

3》删除文件目录或者全部文件:

删除目录和文件:hdfs dfs -rm [-f] [-r|-R] < paths >

-r 级联删除目录下的所有文件和子目录文件

4》上传,复制和覆盖:

hdfs dfs -put [-f] [-p] < localsrc > … < dst >
hdfs dfs -get [-p] [-ignoreCrc] [-crc] < src > … < localdst >

put将本地文件系统的复制到HDFS文件系统的目录下
get 将HDFS中的文件复制到本地文件系统中,与-put命令相反
-f 如果文件在分布式文件系统上已经存在,则覆盖存储,若不加则会报错

-p 保持源文件的属性(组、拥有者、创建时间、权限等)把本地新建的文件放到分布式文件系统主目录下,保持源文件属性

5》查看文件内容:
hdfs dfs -cat/text [-ignoreCrc] < src >
Hdfs dfs -tail [-f] < file >

其中,-ignoreCrc 忽循环检验失败的文件;-f 动态更新显示数据,如查看某个不断增长的文件的日志文件。

3个命令都是在命令行窗口查看指定文件内容。区别是 text 不仅可以查看文本文件,还可以查看压缩文件和Avro序列化的文件,其他两个不可以;tail 查看的是最后1KB的文件(Linux上的tail默认查看最后10行记录)
6》appendToFile追写文件

使用方法: hdfs dfs -du [-s] [-h] < path > …

7》cp复制文件

hdfs dfs -cp /test/file /test/file   注意空格

3分布式文件系统HDFS

是Hadoop中的分布式文件系统,对大量的集群的文件进行管理。

  • 文件系统定义:文件系统是一种存储和组织计算机数据的方法,它使得对其访问和查找变得容易。

  • 文件名:在文件系统中,文件名是用于定位存储位置。

  • 元数据(Metadata):保存文件属性的数据,如文件名,文件长度,文件所属用户组,文件存储位置等。

  • 数据块(Block):存储文件的最小单元。对存储介质划分了固定的区域,使用时按这些区域分配使用。

①特点:具有容错性,高吞吐量,存储容量大

它延迟比较低,有很多的小文件,

流式数据访问

②HDFS架构包含三个部分:NameNode,DataNode,Client。

NameNode叫名称节点,DataNode叫数据节点

名称节点负责元数据之间的映射关系

数据节点负责对元数据的读写信息

……

了解大数据技术原理与应用(复习知识点)相关推荐

  1. 大数据技术原理与应用 第三版 林子雨 期末复习(二) Hadoop HDFS HBase

    大数据技术原理与应用 第三版 林子雨 期末复习(二) Hadoop HDFS HBase Hadoop生态系统 HDFS HDFS结构 块 Name Node与Second Name Node与Dat ...

  2. [渝粤教育] 厦门大学 大数据技术原理与应用 参考 资料

    教育 -大数据技术原理与应用-章节资料考试资料-厦门大学[] 第1章 大数据概述 单元测验 1.[单选题]第三次信息化浪潮的标志是: A.个人电脑的普及 B.互联网的普及 C.云计算.大数据.物联网技 ...

  3. 大数据技术原理与应用课后题(林子雨)

    大数据技术原理与应用(林子雨) 第1章 大数据概述 1单选(2分) 第三次信息化浪潮的标志是: A.个人电脑的普及 B.云计算.大数据.物联网技术的普及 C.虚拟现实技术的普及 D.互联网的普及 正确 ...

  4. 关于大数据技术原理与应用的学习(6)

    学习目标: 大数据技术原理与应用 学习内容: 6云数据库 6.1概述 6.2产品 6.3UMP系统 6.4Amazon云数据库 6.5微软云数据库SQL Azure 学习时间: 2022/03/31 ...

  5. 大数据技术原理与应用 第一篇 大数据基础

    目录 第一章 大数据概述 一. 大数据时代 1.1 三次信息化浪潮 1.2 信息科技发展 1.3 数据产生方式的变革 1.4 大数据的影响 二. 大数据的概念 2.1 大数据的特征 2.2 大数据关键 ...

  6. 大数据技术原理与应用—课后题答案(第一章)

    大数据技术原理与应用_林子雨版_课后题答案(第一章) 1.试述信息技术发展史上的3次信息化浪潮及具体内容. 信息化浪潮 发生时间 标志  解决问题                           ...

  7. 《大数据技术原理与应用》(第八章Hadoop 课后答案)

    第八章 Hadoop再探讨 参考资料 1.林子雨_大数据技术原理与应用课后习题_NPU_阿夏的博客-CSDN博客 2.林子雨编著<大数据技术原理与应用(第3版)>教材官网_厦门大学数据库实 ...

  8. 林子雨试卷《大数据技术原理与应用》试题与答案

    <大数据技术原理与应用>试题与答案 问答题(100分): (问答题,共13道题目,第1题4分,第2题6分,第3题10分,第4题10分,第5题16分,第6题6分,第7题12分,第8题6分,第 ...

  9. 大数据技术原理与应用课程建设经验分享

    大数据技术原理与应用课程 建设经验分享 林子雨 厦门大学信息科学与技术学院, 福建 厦门 361005   摘要:大数据专业人才的培养是世界各国新一轮科技较量的基础,高等院校承担着大数据人才培养的重任 ...

  10. 关于大数据技术原理与应用的学习(1)

    学习目标: 大数据技术原理与应用 学习内容: 大数据概述 1.1大数据时代 1.2大数据的概念和影响 1.3大数据的应用 1.4大数据的关键技术 1.5大数据与云计算.物联网的关系 学习时间: 202 ...

最新文章

  1. php imagick 滤镜,PHP安装imagick扩展踩过的坑
  2. Publish/Subscribe
  3. 实战Solaris 10
  4. boost::hana::zip用法的测试程序
  5. 排队器拦截_过滤器(Filter)和拦截器(Interceptor)的执行顺序和区别
  6. DCL并非单例模式专用
  7. 火车头如何才能设置发布的时候,如果是有html代码就直接的转换掉,互联网上笑话抽取及排重---火车头采集器的使用和MD5算法的应用...
  8. java家政项目,基于javaweb的家政服务毕业设计
  9. 初学python之生成器
  10. 《编译原理》学习笔记 ·001【第一章:总论】
  11. unity3d实现序列帧动画
  12. 黄金分割法 c语言程序,优化程序-黄金分割法C语言程序设计
  13. LeetCode笔记:Biweekly Contest 37 比赛记录
  14. zabbix——告警媒介
  15. 一键定时关机及取消关机
  16. 基于snmp 交换机监控系统实现
  17. xtrabackup 实现mysql的全量备份与增量备份
  18. 最优化方法 23:算子分裂法 ADMM
  19. 爬虫进阶:Scrapy 抓取 boss 直聘、拉勾心得经验
  20. VRBT视频彩铃解决方案

热门文章

  1. C#QQ号批量注册(二)
  2. 小鸡对话软件测试自学,lee1241 日志 - lee1241的个人空间 - 51Testing软件测试网 51Testing软件测试网-软件测试人的精神家园...
  3. NX二次开发-输入X向量Y向量输出一个3*3矩阵UF_MTX3_initialize
  4. SD存储卡系统物理层简化规范V2.00——汉化简化版
  5. Git常用的命令有哪些
  6. 学习Unity相关网站博客和开源项目
  7. SERO目前具备的十大技术特点
  8. Android 7.1 单独编译launcher3 报错的问题
  9. Oracle 与 Mysql 数据类型差异
  10. 根据秒数写一个倒计时,还有几时几分几秒开始