文章目录

  • 目录
    • 1.spark介绍
      • 1.1 spark介绍
      • 1.2 scale介绍
      • 1.3 spark和Hadoop比较
    • 2.spark生态系统
    • 3.spark运行框架
      • 3.1 基本概念
      • 3.2 架构的设计
      • 3.3 spark运行基本流程
      • 3.4 spark运行原理
      • 3.5 RDD运行原理
        • 3.5.1 设计背景
        • 3.5.2 RDD概念和特性
        • 3.5.3 RDD之间的依赖关系
        • 3.5.4 stage的划分
        • 3.5.5 RDD的运行过程
    • 4.spark SQL
      • 4.1 shark的介绍
      • 4.2 spark SQL的介绍
    • 5.spark的部署和运行
      • 5.1 三种部署方式
      • 5.2 从Hadoop+Strom 架构转向spark架构
      • 5.3 Hadoop 和spark的统一部署
    • 6.spark编程实践
      • 6.1 spark安装
      • 6.2 启动spark shell
      • 6.3 spark RDD的操作
      • 6.4 spark应用程序

目录

1.spark介绍

1.1 spark介绍


spark不仅仅是一个计算框架,而是一个大数据处理的平台,或者说生态。

1.2 scale介绍

1.3 spark和Hadoop比较




spark将运行的中间结果写入内存,而不是如MapReduce那样每次都写入磁盘,所以速度非常快,那么肯定就有疑问,内存相比于磁盘来说,那么小,如何解决大数据的中间结果的存储,spark是采用优先写内存,内存写满后,才往磁盘中写入。

2.spark生态系统




3.spark运行框架

3.1 基本概念

3.2 架构的设计


3.3 spark运行基本流程

3.4 spark运行原理

3.5 RDD运行原理

3.5.1 设计背景

3.5.2 RDD概念和特性




3.5.3 RDD之间的依赖关系

3.5.4 stage的划分



3.5.5 RDD的运行过程

4.spark SQL

4.1 shark的介绍

4.2 spark SQL的介绍


5.spark的部署和运行

5.1 三种部署方式

5.2 从Hadoop+Strom 架构转向spark架构


5.3 Hadoop 和spark的统一部署

6.spark编程实践

参考博客

6.1 spark安装


6.2 启动spark shell

6.3 spark RDD的操作




6.4 spark应用程序




大数据学习(09)--spark学习相关推荐

  1. 大数据Hadoop,spark学习

    Hadoop 基础 一个 Hadoop job 通常都是这样的: 从 HDFS 读取输入数据: 在 Map 阶段使用用户定义的 mapper function, 然后把结果写入磁盘: 在 Reduce ...

  2. 大数据实时计算Spark学习笔记(9)—— Spar SQL(1) 读取 json 文件

    1 Spark SQL 编程方式:(1)SQL;(2) DataFrame API scala> case class Customer(id:Int,name:String,age:Int) ...

  3. 大数据技术之_19_Spark学习_07_Spark 性能调优 + 数据倾斜调优 + 运行资源调优 + 程序开发调优 + Shuffle 调优 + GC 调优 + Spark 企业应用案例

    大数据技术之_19_Spark学习_07 第1章 Spark 性能优化 1.1 调优基本原则 1.1.1 基本概念和原则 1.1.2 性能监控方式 1.1.3 调优要点 1.2 数据倾斜优化 1.2. ...

  4. 大数据薪资一再飙升 学习大数据需要哪些基础?

    2018年6月19日,备受关注的个人所得税法修正案草案迎来第七次大修,个税起征点由每月3500元提高至每月5000元(每年6万元).对于大多数人来说这绝对是个好消息,但人们更愿意参加培训班实现高薪.近 ...

  5. 从小白到大数据人工智能专家的学习历程-送100G学习资料

    最近有很多人问我,大数据是怎么学?需要学什么技术以及这些技术的学习顺序是什么?今天有时间我把个问题总结成文章分享给大家. 大数据处理技术怎么学习呢?首先我们要学习Python语言和Linux操作系统, ...

  6. 什么是大数据?零基础如何学习大数据?(附学习路线)

    其实简单的来说,大数据就是通过分析和挖掘全量的非抽样的数据辅助决策. 大数据可以实现的应用可以概括为两个方向,一个是精准化定制,第二个是预测.比如像通过搜索引擎搜索同样的内容,每个人的结果却是大不相同 ...

  7. 做为一名大数据新手,如何成为大数据工程师?附上学习路线

    这几年来大数据非常的热门,到处都有大数据分析的演讲. 演讲内容通常是宣传各种大数据分析成功的案例. 但实际上大数据该怎么做呢? 大部份的讨论似乎都仅止于怎么搜集大量的数据, 然后用个工具(hadoop ...

  8. 成为一个大数据开发工程师的学习步骤--文字版

    本博客搬运自我知乎所出视频成为一个大数据开发工程师的学习步骤? - 知乎大数据的学习是有条件限制的,首先你需要是一名普通的工程师,如果你是Java工程师的话更好,但如果你是小-https://www. ...

  9. 大数据技术之_17_Storm学习_Storm 概述+Storm 基础知识+Storm 集群搭建+Storm 常用 API+Storm 分组策略和并发度

    大数据技术之_17_Storm学习 一 Storm 概述 1.1 离线计算是什么? 1.2 流式计算是什么? 1.3 Storm 是什么? 1.4 Storm 与 Hadoop 的区别 1.5 Sto ...

  10. 大数据技术之_16_Scala学习_13_Scala语言的数据结构和算法_Scala学习之旅收官之作

    大数据技术之_16_Scala学习_13 第十九章 Scala语言的数据结构和算法 19.1 数据结构(算法)的介绍 19.2 看几个实际编程中遇到的问题 19.2.1 一个五子棋程序 19.2.2 ...

最新文章

  1. 测试机房质量之上传下载速率测试
  2. php输出股票价格代码,实时抓取YAHOO股票报价的php代码_PHP教程 - strrpos
  3. 计算机分级时无法度量视频播放,Win7 64位系统电脑评分出现“无法度量视频播放性能”怎么解决...
  4. linux版本photoshop,在linux上使用ps(转载)
  5. 常用c语言小程序,c语言经典小程序汇总大全
  6. plt.errorbar画误差曲线
  7. STM32与多台MS5803压力传感器I2C通讯
  8. muyucms轻量级内容cms
  9. 当运行 Linux 内核的机器死机时...
  10. 虚函数(动态绑定)对于 OO/C++的重要性
  11. 解析ip数据包java_ip包,ip数据包,数据包或者包的理解
  12. Reactor模式 NIO epoll
  13. bzoj1612 奶牛的比赛
  14. Otsu‘s Thresholding的工作原理
  15. 7-1 自动售货机 (30 分)
  16. 《最好的告别》是有尊严的离开
  17. H5页面投票怎么制作
  18. 记录下如何用vue实现PC端网易云轮播图效果
  19. 熊猫烧香病毒幕后黑手曝光 网络世界高手对决一个月
  20. python第三方库re库基本介绍

热门文章

  1. tcp长连接和保活时间
  2. SIP协议(基础技术知识)
  3. mysql三大范式_MySQL学习笔记
  4. python词频统计代码_机器学习必备宝典-《统计学习方法》的python代码实现及课件...
  5. 判断深度学习模型的稳定性_问题引领构建数学模型,讲练结合促进深度学习
  6. 【转】DICOM图像像素值(灰度值)转换为CT值
  7. 【转】刨根究底字符编码之十三——UTF-16编码方式
  8. 如何修改SharePoint服务器场管理员帐户和密码
  9. TFS下的源代码控制
  10. 14.深度学习练习:Face Recognition for the Happy House