spark 提交任务到spark
用上俩篇写的spark 程序提交到spark 做运行测试,分别以俩种方式进行提交(yarn-cluster)(yarn-client)
1>将编写的spark程序打成jar包
2>将打好的jar包上传(包中添加了spark依赖)
3>上传数据文件到hdfs
hadoop fs -put /data/platform.txt /data/
查看上传的数据
[root@sp1 ~]# hadoop fs -lsr /data
lsr: DEPRECATED: Please use 'ls -R' instead.
-rw-r--r-- 3 hdfs supergroup 3721651813 2016-12-21 07:21 /data/platform.txt
4> yarn-cluster
yarn-cluster模式
spark-submit --class com.hadoop.usercounter.PlatFormInfoCounter \
--master spark://192.168.54.11:7077 --executor-memory 5G --total-executor-cores 2 /data/sparksql-exercise.jar
结果:
16/12/22 02:16:14 INFO storage.ShuffleBlockFetcherIterator: Getting 200 non-empty blocks out of 200 blocks
16/12/22 02:16:14 INFO storage.ShuffleBlockFetcherIterator: Started 0 remote fetches in 0 ms
16/12/22 02:16:14 WARN spark.SparkContext: Requesting executors is only supported in coarse-grained mode
16/12/22 02:16:14 INFO executor.Executor: Finished task 0.0 in stage 2.0 (TID 228). 2246 bytes result sent to driver
16/12/22 02:16:14 INFO scheduler.DAGScheduler: ResultStage 2 (show at PlatFormInfoCounter.scala:41) finished in 0.060 s
16/12/22 02:16:14 INFO scheduler.TaskSetManager: Finished task 0.0 in stage 2.0 (TID 228) in 59 ms on localhost (executor driver) (1/1)
16/12/22 02:16:14 INFO scheduler.TaskSchedulerImpl: Removed TaskSet 2.0, whose tasks have all completed, from pool
16/12/22 02:16:14 INFO scheduler.DAGScheduler: Job 0 finished: show at PlatFormInfoCounter.scala:41, took 382.254426 s
+-----+---------+------+----+
| name|phoneType|clicks| _c4|
+-----+---------+------+----+
|Role0| Apple| 8| 81|
|Role0| Apple| 0|1368|
|Role0| Apple| 4| 100|
|Role0| Apple| 5| 95|
|Role0| Apple| 9| 103|
|Role0| Apple| 18| 105|
|Role0| Huawei| 4| 88|
|Role0| Huawei| 5| 87|
|Role0| Huawei| 18| 100|
|Role0| Huawei| 19| 90|
+-----+---------+------+----+
16/12/22 02:16:14 WARN spark.SparkContext: Requesting executors is only supported in coarse-grained mode
16/12/22 02:16:14 INFO ui.SparkUI: Stopped Spark web UI at http://192.168.54.11:4040
16/12/22 02:16:14 INFO spark.MapOutputTrackerMasterEndpoint: MapOutputTrackerMasterEndpoint stopped!
5>yarn-client
yarn-client模式
spark-submit --class com.hadoop.usercounter.PlatFormInfoCounter \
--deploy-mode client /data/sparksql-exercise.jar
结果:
+-----+---------+------+----+
| name|phoneType|clicks| _c4|
+-----+---------+------+----+
|Role0| Apple| 8| 81|
|Role0| Apple| 0|1368|
|Role0| Apple| 4| 100|
|Role0| Apple| 5| 95|
|Role0| Apple| 9| 103|
|Role0| Apple| 18| 105|
|Role0| Huawei| 4| 88|
|Role0| Huawei| 5| 87|
|Role0| Huawei| 18| 100|
|Role0| Huawei| 19| 90|
+-----+---------+------+----+
结果一样,但是yarn-client 要比yarn cluster 快一些,时间少2分钟
spark 提交任务到spark相关推荐
- 平台搭建---Spark提交应用程序---Spark Submit提交应用程序及yarn
本部分来源,也可以到spark官网查看英文版. spark-submit 是在spark安装目录中bin目录下的一个shell脚本文件,用于在集群中启动应用程序(如***.py脚本):对于spark支 ...
- spark 序列化错误 集群提交时_【问题解决】本地提交任务到Spark集群报错:Initial job has not accepted any resources...
本地提交任务到Spark集群报错:Initial job has not accepted any resources 错误信息如下: 18/04/17 18:18:14 INFO TaskSched ...
- spark 提交任务到集群
spark 提交任务到集群 链接 posted on 2018-07-11 15:46 luoganttcc 阅读(...) 评论(...) 编辑 收藏
- spark-jobserver介绍: 提供了一个 RESTful 接口来提交和管理 spark 的 jobs、jars 和 job contexts
spark-jobserver Spark-jobserver 提供了一个 RESTful 接口来提交和管理 spark 的 jobs.jars 和 job contexts.这个项目包含了完整的 S ...
- spark提交应用的全流程分析
spark提交应用的全流程分析 @(SPARK)[spark] 本文分析一下spark的应用通过spark-submit后,如何提交到集群中并开始运行. 先介绍一下spark从提交到运行的全流程,下面 ...
- Spark入门(四)Idea远程提交项目到spark集群
一.依赖包配置 scala与spark的相关依赖包,spark包后尾下划线的版本数字要跟scala的版本第一二位要一致,即2.11 pom.xml <?xml version="1.0 ...
- spark 提交至yarn异常超时 Client cannot authenticate via:[TOKEN, KERBEROS]
spark-cluster提交任务,提示 exit code :10 异常,具体需要到容器日志中去查看 19/08/07 18:09:24 INFO yarn.Client: client token ...
- java spark wordcount_提交任务到spark(以wordcount为例)
1.首先需要搭建好hadoop+spark环境,并保证服务正常.本文以wordcount为例. 2.创建源文件,即输入源.hello.txt文件,内容如下: tom jerry henry jim s ...
- 提交第一个spark作业到集群运行
写在前面 接触spark有一段时间了,但是一直都没有真正意义上的在集群上面跑自己编写的代码.今天在本地使用scala编写一个简单的WordCount程序.然后,打包提交到集群上面跑一下... 在本地使 ...
最新文章
- Windows图标:有一些你未必知道的东西
- 在Eclipse中安装ADT
- 描述一下普适计算时代中的计算机,《课程总结报告-普适计算及其应用》.doc
- 如果我要...(开发版)
- DCMTK:比较DICOM图像并计算差异指标
- PCRE正则表达式语法
- c++层次遍历_数据结构与算法,弄懂图的两种遍历方式
- MongoDB Insert(插入)
- 【工具使用系列】关于 MATLAB 神经网络故障诊断,你需要知道的事
- 4.8、漏洞利用-NSF配置漏洞与Rpcbind信息泄露
- Python暴力破解wifi密码
- ​以太网的发展历史、演化过程以及工作基理
- 关于Google Play这个应用市场app signing的坑
- poj1564 Sum it up
- 2018ICPC网络赛(焦作站)E题题解
- 如何控制步进电机速度(即,如何计算脉冲频率):
- 施一公 为什么学计算机,施一公坦言:为何名校毕业生多倾向于出国?原因太过现实...
- R语言swirl教程(R Programming)11——vapply and tapply
- AutoLisp的扩展函数记录
- 推荐famfamfam.com上的免费WEB小图标
热门文章
- lisp提取长方形坐标_如何利用lisp程序一次性提取CAD中点的坐标(不要点击每个点,太多了麻烦)...
- 在小公司熬了两年后我终于如愿以偿进了阿里
- cics oracle xad_CICS + Linux + Oracle 环境搭建.doc
- Ubuntu20.04 下 rstudio 安装教程(附安装包下载)
- php控制步进电机,pwm控制步进电机怎么加速
- 桌面计算机未响应怎么办,电脑桌面卡死任务管理器打不开怎么办
- 支持中文的Rasa NLU训练服务部署---Rasa_NLU_Chi
- error:值不能为 null。\r\n参数名: oldValue
- (概率/dp)P2059 [JLOI2013]卡牌游戏
- Oracle 技能强化 Part 8 日期操作