直接上代码

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.VoidFunction;import java.util.ArrayList;
import java.util.Arrays;
import java.util.List;public class demo1 {/** 创建JavaSparkContext对象*/public static JavaSparkContext createContext(){SparkConf sc = new SparkConf();sc.setMaster("local[*]").setAppName("sparktest");JavaSparkContext jsc = new JavaSparkContext(sc);return jsc;}public static void main(String[] args) {//        method1();
//        method2();method3();}/** demo1 展示两个集合中只在第一个集合中存在的数据* list1 : hello1,hello2,hello3,hello4* list2 : hello3,hello4,world5,world5* */public static void method1(){JavaSparkContext jsc = createContext();List<String> list1 = new ArrayList <>();list1.add("hello1");list1.add("hello2");list1.add("hello3");list1.add("hello4");List<String> list2 = new ArrayList <>();list2.add("hello3");list2.add("hello4");list2.add("world5");list2.add("world6");JavaRDD<String> a = jsc.parallelize(list1);JavaRDD<String> b = jsc.parallelize(list2);JavaRDD<String> subtract = a.subtract(b);subtract.foreach(new VoidFunction<String>() {@Overridepublic void call(String s) throws Exception {System.out.println(s);}});}/*** 取出RDD的前n个元素,以集合的形式返回*/public static void method2(){JavaSparkContext jsc = createContext();JavaRDD<String> rdd = jsc.parallelize(new ArrayList <String>(Arrays.asList("3", "2", "5", "6", "8", "0")));List <String> take = rdd.take(3);for (String s: take) {System.out.println(s);}}/*** 获得前几个最大值 output - hello 3*/public static void method3(){JavaSparkContext jsc = createContext();JavaRDD<String> rdd = jsc.parallelize(new ArrayList <String>(Arrays.asList("3", "2", "5", "6", "8", "0")));List <String> top = rdd.top(4);for (String s: top) {System.out.println(s);}}}

pom文件

<dependencies><dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>4.11</version><scope>test</scope></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_2.10</artifactId><version>1.6.0</version></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-sql_2.10</artifactId><version>1.6.0</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-client</artifactId><version>2.6.0</version></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-streaming_2.10</artifactId><version>1.6.0</version></dependency></dependencies><build><pluginManagement><!-- lock down plugins versions to avoid using Maven defaults (may be moved to parent pom) --><plugins><!-- clean lifecycle, see https://maven.apache.org/ref/current/maven-core/lifecycles.html#clean_Lifecycle --><plugin><artifactId>maven-clean-plugin</artifactId><version>3.1.0</version></plugin><!-- default lifecycle, jar packaging: see https://maven.apache.org/ref/current/maven-core/default-bindings.html#Plugin_bindings_for_jar_packaging --><plugin><artifactId>maven-resources-plugin</artifactId><version>3.0.2</version></plugin><plugin><artifactId>maven-compiler-plugin</artifactId><version>3.8.0</version></plugin><plugin><artifactId>maven-surefire-plugin</artifactId><version>2.22.1</version></plugin><plugin><artifactId>maven-jar-plugin</artifactId><version>3.0.2</version></plugin><plugin><artifactId>maven-install-plugin</artifactId><version>2.5.2</version></plugin><plugin><artifactId>maven-deploy-plugin</artifactId><version>2.8.2</version></plugin><!-- site lifecycle, see https://maven.apache.org/ref/current/maven-core/lifecycles.html#site_Lifecycle --><plugin><artifactId>maven-site-plugin</artifactId><version>3.7.1</version></plugin><plugin><artifactId>maven-project-info-reports-plugin</artifactId><version>3.0.0</version></plugin></plugins></pluginManagement></build>

spark入门demo相关推荐

  1. spark入门及一些demo

    spark入门 1.背景 2.大数据系统中的一些不足.MapReduce的优缺点 3.spark是什么及特性 4.spark架构及运行原理 5.spark中的一些概念 6.一些demo 这篇文章主要写 ...

  2. Spark入门系列(二)| 1小时学会RDD编程

    作者 | 梁云1991 转载自Python与算法之美(ID:Python_Ai_Road) 导读:本文为 Spark入门系列的第二篇文章,主要介绍 RDD 编程,实操性较强,感兴趣的同学可以动手实现一 ...

  3. Dubbo入门Demo

    2019独角兽企业重金招聘Python工程师标准>>> 1.Dubbo简单介绍 Dubbo是一个分布式服务框架,致力于提供高性能和透明化的RPC远程服务调用方案,以及SOA服务治理方 ...

  4. Spark入门实战系列--6.SparkSQL(中)--深入了解SparkSQL运行计划及调优

    [注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 1.1  运行环境说明 1.1.1 硬软件环境 l  主机操作系统:Windows 64位, ...

  5. Spark入门实战系列--5.Hive(下)--Hive实战

    [注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 1.Hive操作演示 1.1 内部表 1.1.1 创建表并加载数据 第一步   启动HDFS ...

  6. rabbitmq 入门demo

    rabbitmq 入门demo http://www.cnblogs.com/jimmy-muyuan/p/5428715.html http://www.cnblogs.com/shanyou/p/ ...

  7. Spark入门实战系列--2.Spark编译与部署(下)--Spark编译安装

    [注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 1.编译Spark Spark可以通过SBT和Maven两种方式进行编译,再通过make-d ...

  8. Spark入门实战系列--8.Spark MLlib(上)--机器学习及SparkMLlib简介

    [注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 1.机器学习概念 1.1 机器学习的定义 在维基百科上对机器学习提出以下几种定义: l&qu ...

  9. dubbo web工程示例_分布式开发-Zooker+dubbo入门-Demo

    作者:知了堂-刘阳 1.什么是SOA架构 SOA 是Service-Oriented Architecture的首字母简称,它是一个面向服务的架构模式(俗称:分布式:面服务的分布式) 为什么互联网项目 ...

  10. Spark入门(Python)

    Hadoop是对大数据集进行分布式计算的标准工具,这也是为什么当你穿过机场时能看到"大数据(Big Data)"广告的原因.它已经成为大数据的操作系统,提供了包括工具和技巧在内的丰 ...

最新文章

  1. Android API中文系列总结
  2. 使用vs2005进行(wince)DLL源码调试
  3. unity的vr场景怎么做_如何用Unity快速创建一个VR体验
  4. 语言深入:java中究竟是传值还是传引用
  5. python跟谁学_Python 应该怎么学?
  6. Oracle数据库DECODE函数的使用.
  7. linux hash 算法,识别哈希算法类型hash-identifier
  8. 我们的电梯调度算法的独到之处
  9. Python写入文件,但是发现文件为空,竟然未写入!
  10. rabbitmq 用户管理
  11. WingIDE5注册破解的方法
  12. 高防虚拟主机怎么选?
  13. android 多张图片渐变切换控件
  14. 前端~javascript~实战案例:网页表白墙/实战案例:简单实现一个备忘录~
  15. thinkphp手册
  16. mysql通过idb文件,恢复数据库
  17. 关于esxi6.5开启虚拟机提示文件被锁定,无法开机
  18. mac 10.13.5, texpad 1.7.40安装教程
  19. 全智通A+常见问题汇总解答—A+库存损益编辑页面输入损益数量+损益结果!=当前库存
  20. 12星座的出生年月日性格_十二星座的日期和性格特点

热门文章

  1. system verilog语法
  2. CCA分析图如何解读_BI报表控件Wyn使用教程:如何使用网状/雷达图进行数据分析...
  3. 用LM350制作简单可调电源
  4. 在线画图工具ProcessOn
  5. 实验设计与分析 (总结8)
  6. GB50174《电子信息系统机房设计规范》福州再掀培训热潮
  7. 【毕业设计】基于stm32的语音识别 - 单片机 嵌入式 物联网 语音识别
  8. Python糗百爬虫(精简版)
  9. python合并两个文本文件内容_Python将多个txt文本合并为一个文本的代码
  10. 自己动手编程实现“电子地图下载器