spark入门demo
直接上代码
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.VoidFunction;import java.util.ArrayList;
import java.util.Arrays;
import java.util.List;public class demo1 {/** 创建JavaSparkContext对象*/public static JavaSparkContext createContext(){SparkConf sc = new SparkConf();sc.setMaster("local[*]").setAppName("sparktest");JavaSparkContext jsc = new JavaSparkContext(sc);return jsc;}public static void main(String[] args) {// method1();
// method2();method3();}/** demo1 展示两个集合中只在第一个集合中存在的数据* list1 : hello1,hello2,hello3,hello4* list2 : hello3,hello4,world5,world5* */public static void method1(){JavaSparkContext jsc = createContext();List<String> list1 = new ArrayList <>();list1.add("hello1");list1.add("hello2");list1.add("hello3");list1.add("hello4");List<String> list2 = new ArrayList <>();list2.add("hello3");list2.add("hello4");list2.add("world5");list2.add("world6");JavaRDD<String> a = jsc.parallelize(list1);JavaRDD<String> b = jsc.parallelize(list2);JavaRDD<String> subtract = a.subtract(b);subtract.foreach(new VoidFunction<String>() {@Overridepublic void call(String s) throws Exception {System.out.println(s);}});}/*** 取出RDD的前n个元素,以集合的形式返回*/public static void method2(){JavaSparkContext jsc = createContext();JavaRDD<String> rdd = jsc.parallelize(new ArrayList <String>(Arrays.asList("3", "2", "5", "6", "8", "0")));List <String> take = rdd.take(3);for (String s: take) {System.out.println(s);}}/*** 获得前几个最大值 output - hello 3*/public static void method3(){JavaSparkContext jsc = createContext();JavaRDD<String> rdd = jsc.parallelize(new ArrayList <String>(Arrays.asList("3", "2", "5", "6", "8", "0")));List <String> top = rdd.top(4);for (String s: top) {System.out.println(s);}}}
pom文件
<dependencies><dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>4.11</version><scope>test</scope></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_2.10</artifactId><version>1.6.0</version></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-sql_2.10</artifactId><version>1.6.0</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-client</artifactId><version>2.6.0</version></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-streaming_2.10</artifactId><version>1.6.0</version></dependency></dependencies><build><pluginManagement><!-- lock down plugins versions to avoid using Maven defaults (may be moved to parent pom) --><plugins><!-- clean lifecycle, see https://maven.apache.org/ref/current/maven-core/lifecycles.html#clean_Lifecycle --><plugin><artifactId>maven-clean-plugin</artifactId><version>3.1.0</version></plugin><!-- default lifecycle, jar packaging: see https://maven.apache.org/ref/current/maven-core/default-bindings.html#Plugin_bindings_for_jar_packaging --><plugin><artifactId>maven-resources-plugin</artifactId><version>3.0.2</version></plugin><plugin><artifactId>maven-compiler-plugin</artifactId><version>3.8.0</version></plugin><plugin><artifactId>maven-surefire-plugin</artifactId><version>2.22.1</version></plugin><plugin><artifactId>maven-jar-plugin</artifactId><version>3.0.2</version></plugin><plugin><artifactId>maven-install-plugin</artifactId><version>2.5.2</version></plugin><plugin><artifactId>maven-deploy-plugin</artifactId><version>2.8.2</version></plugin><!-- site lifecycle, see https://maven.apache.org/ref/current/maven-core/lifecycles.html#site_Lifecycle --><plugin><artifactId>maven-site-plugin</artifactId><version>3.7.1</version></plugin><plugin><artifactId>maven-project-info-reports-plugin</artifactId><version>3.0.0</version></plugin></plugins></pluginManagement></build>
spark入门demo相关推荐
- spark入门及一些demo
spark入门 1.背景 2.大数据系统中的一些不足.MapReduce的优缺点 3.spark是什么及特性 4.spark架构及运行原理 5.spark中的一些概念 6.一些demo 这篇文章主要写 ...
- Spark入门系列(二)| 1小时学会RDD编程
作者 | 梁云1991 转载自Python与算法之美(ID:Python_Ai_Road) 导读:本文为 Spark入门系列的第二篇文章,主要介绍 RDD 编程,实操性较强,感兴趣的同学可以动手实现一 ...
- Dubbo入门Demo
2019独角兽企业重金招聘Python工程师标准>>> 1.Dubbo简单介绍 Dubbo是一个分布式服务框架,致力于提供高性能和透明化的RPC远程服务调用方案,以及SOA服务治理方 ...
- Spark入门实战系列--6.SparkSQL(中)--深入了解SparkSQL运行计划及调优
[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 1.1 运行环境说明 1.1.1 硬软件环境 l 主机操作系统:Windows 64位, ...
- Spark入门实战系列--5.Hive(下)--Hive实战
[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 1.Hive操作演示 1.1 内部表 1.1.1 创建表并加载数据 第一步 启动HDFS ...
- rabbitmq 入门demo
rabbitmq 入门demo http://www.cnblogs.com/jimmy-muyuan/p/5428715.html http://www.cnblogs.com/shanyou/p/ ...
- Spark入门实战系列--2.Spark编译与部署(下)--Spark编译安装
[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 1.编译Spark Spark可以通过SBT和Maven两种方式进行编译,再通过make-d ...
- Spark入门实战系列--8.Spark MLlib(上)--机器学习及SparkMLlib简介
[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 1.机器学习概念 1.1 机器学习的定义 在维基百科上对机器学习提出以下几种定义: l&qu ...
- dubbo web工程示例_分布式开发-Zooker+dubbo入门-Demo
作者:知了堂-刘阳 1.什么是SOA架构 SOA 是Service-Oriented Architecture的首字母简称,它是一个面向服务的架构模式(俗称:分布式:面服务的分布式) 为什么互联网项目 ...
- Spark入门(Python)
Hadoop是对大数据集进行分布式计算的标准工具,这也是为什么当你穿过机场时能看到"大数据(Big Data)"广告的原因.它已经成为大数据的操作系统,提供了包括工具和技巧在内的丰 ...
最新文章
- Android API中文系列总结
- 使用vs2005进行(wince)DLL源码调试
- unity的vr场景怎么做_如何用Unity快速创建一个VR体验
- 语言深入:java中究竟是传值还是传引用
- python跟谁学_Python 应该怎么学?
- Oracle数据库DECODE函数的使用.
- linux hash 算法,识别哈希算法类型hash-identifier
- 我们的电梯调度算法的独到之处
- Python写入文件,但是发现文件为空,竟然未写入!
- rabbitmq 用户管理
- WingIDE5注册破解的方法
- 高防虚拟主机怎么选?
- android 多张图片渐变切换控件
- 前端~javascript~实战案例:网页表白墙/实战案例:简单实现一个备忘录~
- thinkphp手册
- mysql通过idb文件,恢复数据库
- 关于esxi6.5开启虚拟机提示文件被锁定,无法开机
- mac 10.13.5, texpad 1.7.40安装教程
- 全智通A+常见问题汇总解答—A+库存损益编辑页面输入损益数量+损益结果!=当前库存
- 12星座的出生年月日性格_十二星座的日期和性格特点
热门文章
- system verilog语法
- CCA分析图如何解读_BI报表控件Wyn使用教程:如何使用网状/雷达图进行数据分析...
- 用LM350制作简单可调电源
- 在线画图工具ProcessOn
- 实验设计与分析 (总结8)
- GB50174《电子信息系统机房设计规范》福州再掀培训热潮
- 【毕业设计】基于stm32的语音识别 - 单片机 嵌入式 物联网 语音识别
- Python糗百爬虫(精简版)
- python合并两个文本文件内容_Python将多个txt文本合并为一个文本的代码
- 自己动手编程实现“电子地图下载器