什么是RDD？RDD的特点？RDD与Dataframe的关系？

一、什么是RDD？

RDD是Spark计算的时候操作的数据集，全称是Resilient Distributed Datasets(弹性分布式数据集)。

数据是分布在多台机器上的，为了好处理，将这些分布的数据抽象成一个RDD。这个RDD就是所有数据的代理，操作RDD就相当于操作分布在每台机器上的数据。

二、RDD 有三个基本特性

1. 分区

每一个 RDD 包含的数据被存储在系统的不同节点上，是由很多分区组成的，操作RDD的时候，对RDD里面的每一个分区进行操作。而这些操作真正的会分发到每台机器上，并且拥有容错机制。

在物理存储中，每个分区指向一个存储在内存或者硬盘中的数据块 (Block) ，其实这个数据块就是每个 task 计算出的数据块，它们可以分布在不同的节点上。

所以，RDD 只是抽象意义的数据集合，分区内部并不会存储具体的数据，只会存储它在该 RDD 中的 index，通过该 RDD 的 ID 和分区的 index 可以唯一确定对应数据块的编号，然后通过底层存储层的接口提取到数据进行处理。

在集群中，各个节点上的数据块会尽可能的存储在内存中，只有当内存没有空间时才会放入硬盘存储，这样可以最大化的减少硬盘 IO 的开销。

2. 不可变

不可变性是指每个 RDD 都是只读的，它所包含的分区信息是不可变的。由于已有的 RDD 是不可变的，所以我们只有对现有的 RDD 进行转化 (Transformation) 操作，才能得到新的 RDD ，一步一步的计算出我们想要的结果。

这样会带来这样的好处：我们在 RDD 的计算过程中，不需要立刻去存储计算出的数据本身，我们只要记录每个 RDD 是经过哪些转化操作得来的，即：依赖关系，这样一方面可以提高计算效率，一方面是错误恢复会更加容易。如果在计算过程中，第 N 步输出的 RDD 的节点发生故障，数据丢失，那么可以根据依赖关系从第 N-1 步去重新计算出该 RDD，这也是 RDD 叫做"弹性"分布式数据集的一个原因，也会容错机制。

3. 并行操作

因为 RDD 的分区特性，所以其天然支持并行处理的特性。即不同节点上的数据可以分别被处理，然后生成一个新的 RDD。

三、RDD的操作

分为两种transformation和action

四、RDD 的结构

每个 RDD 里都会包括分区信息、依赖关系等

五、依赖关系

窄依赖、宽依赖。

依赖关系，记录了该 RDD 的计算过程，也就是说这个 RDD 是通过哪个 RDD 经过怎么样的转化操作得到的。窄依赖允许子 RDD 的每个分区可以被并行处理产生，而且支持在同一个节点上链式执行多条指令，无需等待其它父 RDD 的分区操作。

Spark 区分宽窄依赖的原因有两点：

窄依赖支持在同一节点上进行链式操作。相反，款依赖需要所有父分区都是可用的。
从失败恢复的角度考虑，窄依赖失败恢复更有效，因为只要重新计算丢失的父分区即可，而宽依赖涉及到 RDD 的各级多个父分区。

六、RDD和DataFrame的区别

DataFrame：DataFrame是一种以RDD为基础的分布式数据集，类似于传统数据库中的二维表格。DataFrame带有schema元信息，即DataFrame所表示的二维表数据集的每一列都带有名称和类型。这使得SparkSQL得以洞察更多的结构信息，从而对藏于DataFrame背后的数据源以及作用于DataFrame之上的变换进行了针对性的优化，最终达到大幅提升运行时效率的目标。

RDD：无从得知所存数据元素的具体内部结构，Spark Core只能在stage层面进行简单、通用的流水线优化。