spark入门demo

直接上代码

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.VoidFunction;import java.util.ArrayList;
import java.util.Arrays;
import java.util.List;public class demo1 {/** 创建JavaSparkContext对象*/public static JavaSparkContext createContext(){SparkConf sc = new SparkConf();sc.setMaster("local[*]").setAppName("sparktest");JavaSparkContext jsc = new JavaSparkContext(sc);return jsc;}public static void main(String[] args) {//        method1();
//        method2();method3();}/** demo1 展示两个集合中只在第一个集合中存在的数据* list1 : hello1,hello2,hello3,hello4* list2 : hello3,hello4,world5,world5* */public static void method1(){JavaSparkContext jsc = createContext();List<String> list1 = new ArrayList <>();list1.add("hello1");list1.add("hello2");list1.add("hello3");list1.add("hello4");List<String> list2 = new ArrayList <>();list2.add("hello3");list2.add("hello4");list2.add("world5");list2.add("world6");JavaRDD<String> a = jsc.parallelize(list1);JavaRDD<String> b = jsc.parallelize(list2);JavaRDD<String> subtract = a.subtract(b);subtract.foreach(new VoidFunction<String>() {@Overridepublic void call(String s) throws Exception {System.out.println(s);}});}/*** 取出RDD的前n个元素，以集合的形式返回*/public static void method2(){JavaSparkContext jsc = createContext();JavaRDD<String> rdd = jsc.parallelize(new ArrayList <String>(Arrays.asList("3", "2", "5", "6", "8", "0")));List <String> take = rdd.take(3);for (String s: take) {System.out.println(s);}}/*** 获得前几个最大值 output - hello 3*/public static void method3(){JavaSparkContext jsc = createContext();JavaRDD<String> rdd = jsc.parallelize(new ArrayList <String>(Arrays.asList("3", "2", "5", "6", "8", "0")));List <String> top = rdd.top(4);for (String s: top) {System.out.println(s);}}}

pom文件

<dependencies><dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>4.11</version><scope>test</scope></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_2.10</artifactId><version>1.6.0</version></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-sql_2.10</artifactId><version>1.6.0</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-client</artifactId><version>2.6.0</version></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-streaming_2.10</artifactId><version>1.6.0</version></dependency></dependencies><build><pluginManagement><!-- lock down plugins versions to avoid using Maven defaults (may be moved to parent pom) --><plugins><!-- clean lifecycle, see https://maven.apache.org/ref/current/maven-core/lifecycles.html#clean_Lifecycle --><plugin><artifactId>maven-clean-plugin</artifactId><version>3.1.0</version></plugin><!-- default lifecycle, jar packaging: see https://maven.apache.org/ref/current/maven-core/default-bindings.html#Plugin_bindings_for_jar_packaging --><plugin><artifactId>maven-resources-plugin</artifactId><version>3.0.2</version></plugin><plugin><artifactId>maven-compiler-plugin</artifactId><version>3.8.0</version></plugin><plugin><artifactId>maven-surefire-plugin</artifactId><version>2.22.1</version></plugin><plugin><artifactId>maven-jar-plugin</artifactId><version>3.0.2</version></plugin><plugin><artifactId>maven-install-plugin</artifactId><version>2.5.2</version></plugin><plugin><artifactId>maven-deploy-plugin</artifactId><version>2.8.2</version></plugin><!-- site lifecycle, see https://maven.apache.org/ref/current/maven-core/lifecycles.html#site_Lifecycle --><plugin><artifactId>maven-site-plugin</artifactId><version>3.7.1</version></plugin><plugin><artifactId>maven-project-info-reports-plugin</artifactId><version>3.0.0</version></plugin></plugins></pluginManagement></build>

spark入门demo相关推荐

spark入门及一些demo
spark入门 1.背景 2.大数据系统中的一些不足.MapReduce的优缺点 3.spark是什么及特性 4.spark架构及运行原理 5.spark中的一些概念 6.一些demo 这篇文章主要写 ...
Spark入门系列（二）| 1小时学会RDD编程
作者 | 梁云1991 转载自Python与算法之美(ID:Python_Ai_Road) 导读:本文为 Spark入门系列的第二篇文章,主要介绍 RDD 编程,实操性较强,感兴趣的同学可以动手实现一 ...
Dubbo入门Demo
2019独角兽企业重金招聘Python工程师标准>>> 1.Dubbo简单介绍 Dubbo是一个分布式服务框架,致力于提供高性能和透明化的RPC远程服务调用方案,以及SOA服务治理方 ...
Spark入门实战系列--6.SparkSQL（中）--深入了解SparkSQL运行计划及调优
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 1.1 运行环境说明 1.1.1 硬软件环境 l 主机操作系统:Windows 64位, ...
Spark入门实战系列--5.Hive（下）--Hive实战
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 1.Hive操作演示 1.1 内部表 1.1.1 创建表并加载数据第一步启动HDFS ...
rabbitmq 入门demo
rabbitmq 入门demo http://www.cnblogs.com/jimmy-muyuan/p/5428715.html http://www.cnblogs.com/shanyou/p/ ...
Spark入门实战系列--2.Spark编译与部署（下）--Spark编译安装
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 1.编译Spark Spark可以通过SBT和Maven两种方式进行编译,再通过make-d ...
Spark入门实战系列--8.Spark MLlib（上）--机器学习及SparkMLlib简介
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 1.机器学习概念 1.1 机器学习的定义在维基百科上对机器学习提出以下几种定义: l&qu ...
dubbo web工程示例_分布式开发-Zooker+dubbo入门-Demo
作者:知了堂-刘阳 1.什么是SOA架构 SOA 是Service-Oriented Architecture的首字母简称,它是一个面向服务的架构模式(俗称:分布式:面服务的分布式) 为什么互联网项目 ...
Spark入门(Python)
Hadoop是对大数据集进行分布式计算的标准工具,这也是为什么当你穿过机场时能看到"大数据(Big Data)"广告的原因.它已经成为大数据的操作系统,提供了包括工具和技巧在内的丰 ...

spark入门demo

spark入门demo相关推荐

最新文章

热门文章