Spark开源的各模块组成结构:

1. Narrow dependency——窄依赖,子RDD依赖于父RDD中固定的data partition。

2. Stage——分为多个阶段进行作业。

3. Wide Dependency——宽依赖,子RDD对父RDD中的所有data partition依赖。

4. RDD——Resillient Distributed Dataset 分布式数据集。
 
5. Operation——作用于RDD的各种操作分为transformation和action。
 
6. Job——作业,一个JOB包含多个RDD及作用于相应RDD上的各种operation。
 
7. Partition——数据分区, 一个RDD中的数据分成不同的多个区。

8. DAG——Directed Acycle graph,有向无环图,RDD之间的依赖关系。
 
9. Caching Managenment——缓存管理,对RDD的中间计算结果进行缓存管理以加快整体的处理速度。

参考资料(reference)
1.Lightning-Fast Cluster Computing with Spark and Shark
2.Introduction to Spark Internals
3.Resilient Distributed Datasets: A Fault-tolerant Abstraction for In-Memory Cluster Computing

Spark开源学习模块相关推荐

  1. Spark基础学习笔记01:初步了解Spark

    文章目录 零.本讲学习目标 一.大数据开发总体架构 二.Spark简介 三.Spark发展史 四.Spark特点 (一)快速 (二)易用 (三)通用 (四)随处运行 (五)代码简洁 1.采用MR实现词 ...

  2. InChatter系统开源聊天模块前奏曲

    最近在研究WCF,又因为工作中的项目需要,要为现有的系统增加一个聊天模块以及系统消息提醒等,因此就使用WCF做服务器端开发了一个简单的系统. 开发最初学习了东邪孤独大哥的<传说的WCF系列> ...

  3. FaceBook机器学习开源DL模块

    据GIGAOM报道,近日,Facebook人工智能研究院(FAIR)开源了一系列软件库,以帮助开发者建立更大.更快 的深度学习模型.开放的软件库在Facebook被称作模块.用它们替代机器学习领域常用 ...

  4. FFmpeg深度学习模块的历史、现状和计划

    本文来自英特尔资深图形图像软件工程师 郭叶军在LiveVideoStack线上分享的内容,详细介绍了FFmpeg中深度学习模块的历史.现状及未来计划,并针对深度学习模块总体架构与代码实践做详细解析. ...

  5. Spark基础学习笔记10:Scala集成开发环境

    文章目录 零.本讲学习目标 一.搭建Scala的Eclipse开发环境 (一)安装Scala插件 (二)创建Scala项目 二.搭建Scala的IntelliJ IDEA开发环境 (一)启动IDEA ...

  6. 作为一名大数据工程师你需要掌握Spark深度学习

    Tom M. Mitchell教授对于机器学习的定义对深度学习同样适用,深度学习是一种特殊的机器学习,它将现实世界表示为嵌套的层次概念体系(用较简单概念间的联系定义复杂概念,从一般抽象概括到高级抽象表 ...

  7. Spark菜鸟学习营Day5 分布式程序开发

    Spark菜鸟学习营Day5 分布式程序开发 这一章会和我们前面进行的需求分析进行呼应,完成程序的开发. 开发步骤 分布式系统开发是一个复杂的过程,对于复杂过程,我们需要分解为简单步骤的组合. 针对每 ...

  8. June:Datawhale开源学习小程序升级啦!

    1. 开源学习小程序的使用 我们通过七个视频来介绍如何使用Datawhale开源学习小程序. 第一个视频:完善个人信息+报名 组队学习报名前,请大家完善个人信息的填写,便于结课后证书发放. 切换到组队 ...

  9. 六一:如何在Datawhale开源学习小程序中管

    我们的组队学习马上就要开营了,本次组队学习与以往不同的是小程序中增加了队伍管理的功能. 为了方便大家组队,Datawhale的 六一同学 为大家准备了在Datawhale开源学习小程序中队伍管理的教程 ...

最新文章

  1. 分享一个小工具:Excel表高速转换成JSON字符串
  2. 通达信四色谱四量图源码_翔博精选指标熊市专用优化(通达信公式 选股 源码 测试图)...
  3. JAVA SE学习day_05: IO与流操作
  4. 动态调频DVFS_转
  5. OpenCV重新映射Remapping
  6. Activity与Intent
  7. spring-data-jpa 查询视图
  8. FPGA仿真类型简介
  9. 如果IE浏览器是IE11以下版本跳转到升级页面
  10. 高效记忆/形象记忆(07)英语单词记忆-熟词拆分
  11. 克隆出错fatal: unable to access ‘https://github.com/‘: OpenSSL SSL_connect:
  12. 《加州消费者隐私法案》(CCPA)解读二:CCPA赋予消费者六大权力
  13. 安装spinningup填坑ERROR: Could not build wheels for mpi4py which use PEP 517
  14. Android Camera2 对焦梳理
  15. HDU2066---------Dijkstra算法代码
  16. nginx 配置后缀
  17. 康威生命游戏简易版python_turtle实现
  18. 饥荒更多食物制作mod食谱_您如何看待您附近的更好的食物?
  19. 教妹学Java:接口,抽象的另一种表现方式
  20. JAVA中类scanf的使用方法

热门文章

  1. windows 2003 英文版支持中文显示、中文输入的设置方法
  2. mac OS X 10.9.2 gdb codesign
  3. Q91:真实地模拟透明材质(Realistic Transparency)(3)——A Glass of Water
  4. mt6765和骁龙665哪个好_华为都把骁龙850用在了自家的win10设备上了,麒麟还会远吗?...
  5. 工业大数据的应用有哪些
  6. 大数据平台有什么功能
  7. 大数据存在的安全隐患该如何防患
  8. drupal的php运行版本,Drupal 运行的系统要求
  9. python用于标识类方法的是_Python类的设计与使用
  10. opengl计算帧率_unity如何计算帧率FPS