1.Spark是基于内存计算的大数据计算平台,试述Spark的主要特点。

答:Spark具有如下4个主要特点:

①运行速度快;②容易使用;③通用性;④运行模式多样。

2.Spark的出现是为了解决Hadoop MapReduce的不足,试列举Hadoop MapReduce的几个缺陷,并说明Spark具备哪些优点。

答:

(1)Hadoop存在以下缺点:

①表达能力有限;②磁盘IO开销大;③延迟高

(2)Spark主要有如下优点:

①Spark的计算模式也属于MapReduce,但不局限于Map和Reduce操作,还提供了多种数据集操作类型,编程模型比MapReduce更灵活;

②Spark提供了内存计算,中间结果直接存放内存中,带来更高的迭代运算效率;

③Spark基于DAG的任务调度执行机制,要优于MapReduce的迭代执行机制。

3.美国加州大学伯克利分校提出的数据分析的软件栈BDAS认为目前的大数据处理可以分为哪三个类型?

答:
①复杂的批量数据处理:时间跨度通常在数十分钟到数小时之间;

②基于历史数据的交互式查询:时间跨度通常在数十秒到数分钟之间;

③基于实时数据流的数据处理:时间跨度通常在数百毫秒到数秒之间。

4.Spark已打造出结构一体化,功能多样化的大数据生态系统,试述Spark的生态系统。

答:Spark的设计遵循“一个软件栈满足不同应用场景”的理念,逐渐形成一套完整生态系统,既能够提供内存计算框架,也可以支持SQL即席查询、实时流式计算、机器学习和图计算等。Spark可以部署在资源管理器YARN之上,提供一站式的大数据解决方案。因此,Spark所提供的生态系统同时支持批处理、交互式查询和流数据处理。

5.从Hadoop+Storm架构转向Spark架构可带来哪些好处?

答:
(1)实现一键式安装和配置、线程级别的任务监控和告警;

(2)降低硬件集群、软件维护、任务监控和应用开发的难度;

(3)便于做成统一的硬件、计算平台资源池。

6.试述“Spark on YARN”的概念。

答:Spark可以运行与YARN之上,与Hadoop进行统一部署,即“Spark on YARN”,其架构如图所示,资源管理和调度用YARN,分布式存储则用HDFS。

7、试述如下Spark的几个主要概念:RDD、DAG、阶段、分区、窄依赖、宽依赖。

答:

① RDD:是弹性分布式数据集(Resilient Distributed Dataset)的英文缩写,是分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型。

② DAG:是Directed Acyclic Graph(有向无环图)的英文缩写,反映RDD之间的依赖关系。

③ 阶段:是作业的基本调度单位,一个作业会分为多组任务,每组任务被称为“阶段”,或者也被称为“任务集”。

④ 分区:一个RDD就是一个分布式对象集合,本质上是一个只读的分区记录集合,每个RDD可以分成多个分区,每个分区就是一个数据集片段。

⑤窄依赖:父RDD的一个分区只被一个子RDD的一个分区所使用就是窄依赖。

⑥ 宽依赖:父RDD的一个分区被一个子RDD的多个分区所使用就是宽依赖。

8、Spark对RDD的操作主要分为行动(Action)和转换(Transformation)两种类型,两种类型操作的区别是什么?

答:

行动(Action):在数据集上进行运算,返回计算值。

转换(Transformation):基于现有的数据集创建一个新的数据集。

大数据技术原理与应用之【Spark】习题相关推荐

  1. Spark大数据技术与应用 第一章Spark简介与运行原理

    Spark大数据技术与应用 第一章Spark简介与运行原理 1.Spark是2009年由马泰·扎哈里亚在美国加州大学伯克利分校的AMPLab实验室开发的子项目,经过开源后捐赠给Aspache软件基金会 ...

  2. [渝粤教育] 厦门大学 大数据技术原理与应用 参考 资料

    教育 -大数据技术原理与应用-章节资料考试资料-厦门大学[] 第1章 大数据概述 单元测验 1.[单选题]第三次信息化浪潮的标志是: A.个人电脑的普及 B.互联网的普及 C.云计算.大数据.物联网技 ...

  3. 大数据技术原理与应用课后题(林子雨)

    大数据技术原理与应用(林子雨) 第1章 大数据概述 1单选(2分) 第三次信息化浪潮的标志是: A.个人电脑的普及 B.云计算.大数据.物联网技术的普及 C.虚拟现实技术的普及 D.互联网的普及 正确 ...

  4. 大数据技术原理与应用 第一篇 大数据基础

    目录 第一章 大数据概述 一. 大数据时代 1.1 三次信息化浪潮 1.2 信息科技发展 1.3 数据产生方式的变革 1.4 大数据的影响 二. 大数据的概念 2.1 大数据的特征 2.2 大数据关键 ...

  5. 林子雨试卷《大数据技术原理与应用》试题与答案

    <大数据技术原理与应用>试题与答案 问答题(100分): (问答题,共13道题目,第1题4分,第2题6分,第3题10分,第4题10分,第5题16分,第6题6分,第7题12分,第8题6分,第 ...

  6. 大数据技术原理与应用课程建设经验分享

    大数据技术原理与应用课程 建设经验分享 林子雨 厦门大学信息科学与技术学院, 福建 厦门 361005   摘要:大数据专业人才的培养是世界各国新一轮科技较量的基础,高等院校承担着大数据人才培养的重任 ...

  7. 关于大数据技术原理与应用的学习(1)

    学习目标: 大数据技术原理与应用 学习内容: 大数据概述 1.1大数据时代 1.2大数据的概念和影响 1.3大数据的应用 1.4大数据的关键技术 1.5大数据与云计算.物联网的关系 学习时间: 202 ...

  8. 关于大数据技术原理与应用的学习(3)

    学习目标: 大数据技术原理与应用 学习内容: 分布式文件系统HDFS 3.1HDFS简介 3.2HDFS相关概念 3.3HTFS体系结构 3.4HTFS存储元原理 3.5HDFS数据读写 3.6HDF ...

  9. 关于大数据技术原理与应用的学习(6)

    学习目标: 大数据技术原理与应用 学习内容: 6云数据库 6.1概述 6.2产品 6.3UMP系统 6.4Amazon云数据库 6.5微软云数据库SQL Azure 学习时间: 2022/03/31 ...

  10. 大数据技术原理与应用—课后题答案(第一章)

    大数据技术原理与应用_林子雨版_课后题答案(第一章) 1.试述信息技术发展史上的3次信息化浪潮及具体内容. 信息化浪潮 发生时间 标志  解决问题                           ...

最新文章

  1. ELK(ElasticSearch, Logstash, Kibana)搭建实时日志分析平台
  2. JavaCSV之写CSV文件
  3. MySQL无法修改字段
  4. postgresql定义访问ip与用户_Postgresql-12.1最新版本在线安装以及配置使用全流程
  5. python对象属性赋值_关于python对象 中dict属性赋值的疑问
  6. java多因子认证,Milvus 实战|生物多因子认证系列 (二):人脸识别
  7. 通用知识图谱的构建及在QQ浏览器的应用实践
  8. 低代码开发平台是什么
  9. 【数据结构笔记35】C实现:有序子列的归并算法:递归与非递归的实现
  10. Hadoop管理员的十个最佳实践(转)
  11. You must install libks to build mod_signalwire
  12. JavaScript学习指南笔记
  13. 知识付费系统源码(开源知识付费系统平台下载)
  14. 数据有效性 动态选择
  15. IDEA配置tomcat静态资源目录
  16. cello2.0安装及相关背景
  17. 用wegame启动lol显示服务器维护,wegame启动不了英雄联盟(wegame点启动又弹回界面)...
  18. 记红辣椒苹果审核旅程
  19. 写CSDN博客如何复制粘贴图片?
  20. 购物商城app的特点有哪些

热门文章

  1. matlab第8章,第8章++MATLAB数值积分与微分.ppt
  2. iOS 带下划线文字
  3. java面试之JVM和并发
  4. 手机上的廉价快感,真的得戒掉
  5. matlab x(n)16点DFT,数字信号处理课程设计参考题目
  6. SV TechClub 第四届 美女与野兽 2019区块链游戏黑客马拉松
  7. [转贴]英语口语整理,灵活运用了,口语基本就没问题了。
  8. 微信小程序实现两个数之间的运算
  9. /storage/emulated/0 (Permission denied) 权限已开,写入sd卡仍报错的解决办法
  10. 【陈工笔记】【复盘】# 计算机常规快捷键-专业选手必备 #