spark RDD创建方式：parallelize，makeRDD，textFile

parallelize

调用SparkContext 的 parallelize()，将一个存在的集合，变成一个RDD，这种方式试用于学习spark和做一些spark的测试

scala版本

1	`def parallelize[T](seq: Seq[T], numSlices: Int = defaultParallelism)(implicit arg0: ClassTag[T]): RDD[T]`

- 第一个参数一是一个 Seq集合

- 第二个参数是分区数

- 返回的是RDD[T]

scala> sc.parallelize(List("shenzhen", "is a beautiful city"))

res1: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[1] at parallelize at :22

java版本

1	`def parallelize[T](list : java.util.List[T], numSlices : scala.Int) : org.apache.spark.api.java.JavaRDD[T] = {` `/* compiled code */` `}`

- 第一个参数是一个List集合

- 第二个参数是一个分区，可以默认

- 返回的是一个JavaRDD[T]

java版本只能接收List的集合

1	`JavaRDD javaStringRDD = sc.parallelize(Arrays.asList("shenzhen",` `"is a beautiful city"));`

makeRDD

只有scala版本的才有makeRDD

1	`def makeRDD[T](seq : scala.Seq[T], numSlices : scala.Int = {` `/* compiled code */` `})`

跟parallelize类似

1	`sc.makeRDD(List("shenzhen",` `"is a beautiful city"))`

textFile

调用SparkContext.textFile()方法，从外部存储中读取数据来创建 RDD

例如在我本地F:\dataexample\wordcount\input下有个sample.txt文件，文件随便写了点内容，我需要将里面的内容读取出来创建RDD

scala版本

1	`var lines = sc.textFile("F:\\dataexample\\wordcount\\input")`

java版本

1	`JavaRDD lines = sc.textFile("F:\\dataexample\\wordcount\\input");`

spark RDD创建方式：parallelize，makeRDD，textFile相关推荐

Spark RDD创建操作
从集合创建RDD parallelize def parallelize[T](seq: Seq[T], numSlices: Int = defaultParallelism)(implicit a ...
Spark StreamingContext创建方式
方式1 //get a conf objectval conf = new SparkConf().setAppName("SparkStreamWordcount").setMa ...
Spark算子：RDD创建操作
关键字:Spark RDD 创建.parallelize.makeRDD.textFile.hadoopFile.hadoopRDD.newAPIHadoopFile.newAPIHadoopRDD ...
Spark RDD使用详解2--RDD创建方式
RDD创建方式 1)从Hadoop文件系统(如HDFS.Hive.HBase)输入创建. 2)从父RDD转换得到新RDD. 3)通过parallelize或makeRDD将单机数据创建为分布式RDD. ...
第二章 Spark RDD以及编程接口
第二章 Spark RDD以及编程接口目录 Spark程序"Hello World" Spark RDD 创建操作转换操作控制操作行动操作注:学习<Spark大数据 ...
Java Spark之创建RDD的两种方式和操作RDD
首先看看思维导图,我的spark是1.6.1版本,jdk是1.7版本 spark是什么? Spark是基于内存计算的大数据并行计算框架.Spark基于内存计算,提高了在大数据环境下数据处理的实时性, ...
2021年大数据Spark（十三）：Spark Core的RDD创建
RDD的创建官方文档:http://spark.apache.org/docs/latest/rdd-programming-guide.html#resilient-distributed-dat ...
RDD的几种创建方式
RDD简介 RDD是Spark的核心抽象,全称为Resillient Distributed Dataset,即弹性分布式数据集 RDD在抽象上来说是一种元素集合,包含了数据.它是被分区的,分为多个分 ...
dataframe 排序_疯狂Spark之DataFrame创建方式详解一(九)
创建DataFrame的几种方式 1.读取json格式的文件创建DataFrame 注意: 1. json文件中的json数据不能嵌套json格式数据. 2. DataFrame是一个一个Row类型的 ...

spark RDD创建方式：parallelize，makeRDD，textFile

spark RDD创建方式：parallelize，makeRDD，textFile相关推荐

最新文章

热门文章