大数据技术原理与应用之【Spark】习题
1.Spark是基于内存计算的大数据计算平台,试述Spark的主要特点。
答:Spark具有如下4个主要特点:
①运行速度快;②容易使用;③通用性;④运行模式多样。
2.Spark的出现是为了解决Hadoop MapReduce的不足,试列举Hadoop MapReduce的几个缺陷,并说明Spark具备哪些优点。
答:
(1)Hadoop存在以下缺点:
①表达能力有限;②磁盘IO开销大;③延迟高
(2)Spark主要有如下优点:
①Spark的计算模式也属于MapReduce,但不局限于Map和Reduce操作,还提供了多种数据集操作类型,编程模型比MapReduce更灵活;
②Spark提供了内存计算,中间结果直接存放内存中,带来更高的迭代运算效率;
③Spark基于DAG的任务调度执行机制,要优于MapReduce的迭代执行机制。
3.美国加州大学伯克利分校提出的数据分析的软件栈BDAS认为目前的大数据处理可以分为哪三个类型?
答:
①复杂的批量数据处理:时间跨度通常在数十分钟到数小时之间;
②基于历史数据的交互式查询:时间跨度通常在数十秒到数分钟之间;
③基于实时数据流的数据处理:时间跨度通常在数百毫秒到数秒之间。
4.Spark已打造出结构一体化,功能多样化的大数据生态系统,试述Spark的生态系统。
答:Spark的设计遵循“一个软件栈满足不同应用场景”的理念,逐渐形成一套完整生态系统,既能够提供内存计算框架,也可以支持SQL即席查询、实时流式计算、机器学习和图计算等。Spark可以部署在资源管理器YARN之上,提供一站式的大数据解决方案。因此,Spark所提供的生态系统同时支持批处理、交互式查询和流数据处理。
5.从Hadoop+Storm架构转向Spark架构可带来哪些好处?
答:
(1)实现一键式安装和配置、线程级别的任务监控和告警;
(2)降低硬件集群、软件维护、任务监控和应用开发的难度;
(3)便于做成统一的硬件、计算平台资源池。
6.试述“Spark on YARN”的概念。
答:Spark可以运行与YARN之上,与Hadoop进行统一部署,即“Spark on YARN”,其架构如图所示,资源管理和调度用YARN,分布式存储则用HDFS。
7、试述如下Spark的几个主要概念:RDD、DAG、阶段、分区、窄依赖、宽依赖。
答:
① RDD:是弹性分布式数据集(Resilient Distributed Dataset)的英文缩写,是分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型。
② DAG:是Directed Acyclic Graph(有向无环图)的英文缩写,反映RDD之间的依赖关系。
③ 阶段:是作业的基本调度单位,一个作业会分为多组任务,每组任务被称为“阶段”,或者也被称为“任务集”。
④ 分区:一个RDD就是一个分布式对象集合,本质上是一个只读的分区记录集合,每个RDD可以分成多个分区,每个分区就是一个数据集片段。
⑤窄依赖:父RDD的一个分区只被一个子RDD的一个分区所使用就是窄依赖。
⑥ 宽依赖:父RDD的一个分区被一个子RDD的多个分区所使用就是宽依赖。
8、Spark对RDD的操作主要分为行动(Action)和转换(Transformation)两种类型,两种类型操作的区别是什么?
答:
行动(Action):在数据集上进行运算,返回计算值。
转换(Transformation):基于现有的数据集创建一个新的数据集。
大数据技术原理与应用之【Spark】习题相关推荐
- Spark大数据技术与应用 第一章Spark简介与运行原理
Spark大数据技术与应用 第一章Spark简介与运行原理 1.Spark是2009年由马泰·扎哈里亚在美国加州大学伯克利分校的AMPLab实验室开发的子项目,经过开源后捐赠给Aspache软件基金会 ...
- [渝粤教育] 厦门大学 大数据技术原理与应用 参考 资料
教育 -大数据技术原理与应用-章节资料考试资料-厦门大学[] 第1章 大数据概述 单元测验 1.[单选题]第三次信息化浪潮的标志是: A.个人电脑的普及 B.互联网的普及 C.云计算.大数据.物联网技 ...
- 大数据技术原理与应用课后题(林子雨)
大数据技术原理与应用(林子雨) 第1章 大数据概述 1单选(2分) 第三次信息化浪潮的标志是: A.个人电脑的普及 B.云计算.大数据.物联网技术的普及 C.虚拟现实技术的普及 D.互联网的普及 正确 ...
- 大数据技术原理与应用 第一篇 大数据基础
目录 第一章 大数据概述 一. 大数据时代 1.1 三次信息化浪潮 1.2 信息科技发展 1.3 数据产生方式的变革 1.4 大数据的影响 二. 大数据的概念 2.1 大数据的特征 2.2 大数据关键 ...
- 林子雨试卷《大数据技术原理与应用》试题与答案
<大数据技术原理与应用>试题与答案 问答题(100分): (问答题,共13道题目,第1题4分,第2题6分,第3题10分,第4题10分,第5题16分,第6题6分,第7题12分,第8题6分,第 ...
- 大数据技术原理与应用课程建设经验分享
大数据技术原理与应用课程 建设经验分享 林子雨 厦门大学信息科学与技术学院, 福建 厦门 361005 摘要:大数据专业人才的培养是世界各国新一轮科技较量的基础,高等院校承担着大数据人才培养的重任 ...
- 关于大数据技术原理与应用的学习(1)
学习目标: 大数据技术原理与应用 学习内容: 大数据概述 1.1大数据时代 1.2大数据的概念和影响 1.3大数据的应用 1.4大数据的关键技术 1.5大数据与云计算.物联网的关系 学习时间: 202 ...
- 关于大数据技术原理与应用的学习(3)
学习目标: 大数据技术原理与应用 学习内容: 分布式文件系统HDFS 3.1HDFS简介 3.2HDFS相关概念 3.3HTFS体系结构 3.4HTFS存储元原理 3.5HDFS数据读写 3.6HDF ...
- 关于大数据技术原理与应用的学习(6)
学习目标: 大数据技术原理与应用 学习内容: 6云数据库 6.1概述 6.2产品 6.3UMP系统 6.4Amazon云数据库 6.5微软云数据库SQL Azure 学习时间: 2022/03/31 ...
- 大数据技术原理与应用—课后题答案(第一章)
大数据技术原理与应用_林子雨版_课后题答案(第一章) 1.试述信息技术发展史上的3次信息化浪潮及具体内容. 信息化浪潮 发生时间 标志 解决问题 ...
最新文章
- ELK(ElasticSearch, Logstash, Kibana)搭建实时日志分析平台
- JavaCSV之写CSV文件
- MySQL无法修改字段
- postgresql定义访问ip与用户_Postgresql-12.1最新版本在线安装以及配置使用全流程
- python对象属性赋值_关于python对象 中dict属性赋值的疑问
- java多因子认证,Milvus 实战|生物多因子认证系列 (二):人脸识别
- 通用知识图谱的构建及在QQ浏览器的应用实践
- 低代码开发平台是什么
- 【数据结构笔记35】C实现:有序子列的归并算法:递归与非递归的实现
- Hadoop管理员的十个最佳实践(转)
- You must install libks to build mod_signalwire
- JavaScript学习指南笔记
- 知识付费系统源码(开源知识付费系统平台下载)
- 数据有效性 动态选择
- IDEA配置tomcat静态资源目录
- cello2.0安装及相关背景
- 用wegame启动lol显示服务器维护,wegame启动不了英雄联盟(wegame点启动又弹回界面)...
- 记红辣椒苹果审核旅程
- 写CSDN博客如何复制粘贴图片?
- 购物商城app的特点有哪些
热门文章
- matlab第8章,第8章++MATLAB数值积分与微分.ppt
- iOS 带下划线文字
- java面试之JVM和并发
- 手机上的廉价快感,真的得戒掉
- matlab x(n)16点DFT,数字信号处理课程设计参考题目
- SV TechClub 第四届 美女与野兽 2019区块链游戏黑客马拉松
- [转贴]英语口语整理,灵活运用了,口语基本就没问题了。
- 微信小程序实现两个数之间的运算
- /storage/emulated/0 (Permission denied) 权限已开,写入sd卡仍报错的解决办法
- 【陈工笔记】【复盘】# 计算机常规快捷键-专业选手必备 #