parallelize

调用SparkContext 的 parallelize(),将一个存在的集合,变成一个RDD,这种方式试用于学习spark和做一些spark的测试

scala版本

?

1

def parallelize[T](seq: Seq[T], numSlices: Int = defaultParallelism)(implicit arg0: ClassTag[T]): RDD[T]

- 第一个参数一是一个 Seq集合

- 第二个参数是分区数

- 返回的是RDD[T]

?

1

2

3

scala> sc.parallelize(List("shenzhen", "is a beautiful city"))

res1: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[1] at parallelize at :22

java版本

?

1

def parallelize[T](list : java.util.List[T], numSlices : scala.Int) : org.apache.spark.api.java.JavaRDD[T] = { /* compiled code */ }

- 第一个参数是一个List集合

- 第二个参数是一个分区,可以默认

- 返回的是一个JavaRDD[T]

java版本只能接收List的集合

?

1

JavaRDD javaStringRDD = sc.parallelize(Arrays.asList("shenzhen", "is a beautiful city"));

makeRDD

只有scala版本的才有makeRDD

?

1

def makeRDD[T](seq : scala.Seq[T], numSlices : scala.Int = { /* compiled code */ })

跟parallelize类似

?

1

sc.makeRDD(List("shenzhen", "is a beautiful city"))

textFile

调用SparkContext.textFile()方法,从外部存储中读取数据来创建 RDD

例如在我本地F:\dataexample\wordcount\input下有个sample.txt文件,文件随便写了点内容,我需要将里面的内容读取出来创建RDD

scala版本

?

1

var lines = sc.textFile("F:\\dataexample\\wordcount\\input")

java版本

?

1

JavaRDD lines = sc.textFile("F:\\dataexample\\wordcount\\input");

spark RDD创建方式:parallelize,makeRDD,textFile相关推荐

  1. Spark RDD创建操作

    从集合创建RDD parallelize def parallelize[T](seq: Seq[T], numSlices: Int = defaultParallelism)(implicit a ...

  2. Spark StreamingContext创建方式

    方式1 //get a conf objectval conf = new SparkConf().setAppName("SparkStreamWordcount").setMa ...

  3. Spark算子:RDD创建操作

    关键字:Spark RDD 创建.parallelize.makeRDD.textFile.hadoopFile.hadoopRDD.newAPIHadoopFile.newAPIHadoopRDD ...

  4. Spark RDD使用详解2--RDD创建方式

    RDD创建方式 1)从Hadoop文件系统(如HDFS.Hive.HBase)输入创建. 2)从父RDD转换得到新RDD. 3)通过parallelize或makeRDD将单机数据创建为分布式RDD. ...

  5. 第二章 Spark RDD以及编程接口

    第二章 Spark RDD以及编程接口 目录 Spark程序"Hello World" Spark RDD 创建操作 转换操作 控制操作 行动操作 注:学习<Spark大数据 ...

  6. Java Spark之创建RDD的两种方式和操作RDD

    首先看看思维导图,我的spark是1.6.1版本,jdk是1.7版本 spark是什么?  Spark是基于内存计算的大数据并行计算框架.Spark基于内存计算,提高了在大数据环境下数据处理的实时性, ...

  7. 2021年大数据Spark(十三):Spark Core的RDD创建

    RDD的创建 官方文档:http://spark.apache.org/docs/latest/rdd-programming-guide.html#resilient-distributed-dat ...

  8. RDD的几种创建方式

    RDD简介 RDD是Spark的核心抽象,全称为Resillient Distributed Dataset,即弹性分布式数据集 RDD在抽象上来说是一种元素集合,包含了数据.它是被分区的,分为多个分 ...

  9. dataframe 排序_疯狂Spark之DataFrame创建方式详解一(九)

    创建DataFrame的几种方式 1.读取json格式的文件创建DataFrame 注意: 1. json文件中的json数据不能嵌套json格式数据. 2. DataFrame是一个一个Row类型的 ...

最新文章

  1. 【题单 - 数学专题】最大公约数
  2. K-means聚类算法和模糊C-means聚类算法
  3. ElasticSearch基础知识整理
  4. ⑤Windows Server 8 RemoteFX体验
  5. 为了OFFER,继续深入学习树和二叉树
  6. navicat导出数据到oracle,使用Navicat premium导出oracle数据库中数据到SQL server2008数据库中...
  7. 2019届互联网校招本科薪酬清单
  8. 容易忽视但是功能灰常强大的Java API(二. 读写对象)
  9. foreach写失效的问题
  10. 怎么把系统桌面设置到D盘
  11. 数值分析:复化梯形公式与复化Simpson公式
  12. Ubuntu桌面管理器
  13. 免流服务器系统怎么选,免流云服务器选
  14. 教老妈学认字的战斗史
  15. php 整型 范围,PHP Integer 整型
  16. 小学计算机神奇的因特网教案,小学信息技术第三册全册教案(第一单元 神奇的动画城)...
  17. oh my zsh详细安装教程
  18. Redis安装与使用
  19. 命令行CURL教程,可以用来在linux下向web服务器发GET等请求
  20. 数据结构-链表:对链表进行初始化、增删改查

热门文章

  1. [java][工具类][Arrays]
  2. linux给文件赋权限找不到,linux 文件赋权限
  3. 多维数组的索引与切片_Numpy库使用入门(二)数据的索引和切片
  4. java模拟滑动事件_java - 以编程方式在Android视图中触发滑动动作事件 - SO中文参考 - www.soinside.com...
  5. find linux 指定后缀_linux下find(文件查找)命令的用法总结
  6. 记事本贪吃蛇游戏代码_厉害了,程序员28行代码写贪吃蛇游戏,附源码!
  7. xpath以某个字符开始_XPATH技术补充-实例
  8. 未找到要求的 from 关键字_性能优化|这恐怕是解释Explain关键字最全的一篇文章
  9. ajax局部刷新_web前端入门到实战:实现html页面自动刷新
  10. css中float详解,CSS浮动属性Float详解?史上最全Float详解