前面Windows下已经安装好本地2.11.11版本的scala、spark-2.4.3-bin-hadoop2.7版本的spark、hadoop2.7.7本地版本了,没安装的先去安装一下先 scala的Windows本地安装 ; spark的Windows本地安装;hadoop的Windows本地安装

1.idea上安装scala插件

按照箭头指示操作

装好之后重启idea

2. 添加scala框架

创建项目:文件->新建->项目->名称和位置,java,maven->创建


添加scala框架支持:右键->添加框架支持->下拉找到scala,点击并确定

3. 创建scala案例运行测试

在main和test文件夹下建立scala文件夹

将main目录下的scala目录标记为源代码根目录

新建scala类,编写案例进行测试


4. 添加spark依赖包,运行spark案例

添加依赖包:文件->项目结构->


找到你安装本地spark目录下的jars包文件,点击确定,添加进去

之后你会看见这里多了jars目录,这是运行需要的库

创建test2运行spark程序案例并运行:

代码:

import org.apache.spark.{SparkConf, SparkContext}  object test2 {  def main(args: Array[String]): Unit = {  val conf = new SparkConf().setAppName("WordCount").setMaster("local[2]")  val sc: SparkContext = new SparkContext(conf)  val line = sc.textFile("F:\\test.txt")  val word = line.flatMap(_.split(" "))  val tup  = word.map((_,1))  val reduced = tup.reduceByKey(_+_)  val res = reduced.sortBy(_._2,false)  println(res.collect.toBuffer)  res.saveAsTextFile("./TestWord")  sc.stop()  }
}

txt文件:
hello hello world scala java Python
java hello c++ c kafka flume hadoop sqoop
supervisor redis hive hive hbase hbase zookeeper hive hdfs hdfs hdfs
大数据 大数据 大数据 程序员

运行结果:

至此,已做好环境准备。

另外,如果关于需要配置pom.xml,提供以下参考文件,对应版本修改一下就好了:

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"  xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"  xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">  <modelVersion>4.0.0</modelVersion>  <!--设置自己的groupID-->  <groupId>org.example</groupId>  <artifactId>sparkDemo</artifactId>  <version>1.0-SNAPSHOT</version>  <!--设置依赖版本号-->  <properties>  <scala.version>2.11.12</scala.version>  <hadoop.version>2.7.3</hadoop.version>  <spark.version>2.4.0</spark.version>  </properties>  <dependencies>        <!--Scala-->  <dependency>  <groupId>org.scala-lang</groupId>  <artifactId>scala-library</artifactId>  <version>${scala.version}</version>  </dependency>        <!--Spark-->  <dependency>  <groupId>org.apache.spark</groupId>  <artifactId>spark-core_2.11</artifactId>  <version>${spark.version}</version>  </dependency>        <dependency>            <groupId>org.apache.spark</groupId>  <artifactId>spark-sql_2.11</artifactId>  <version>${spark.version}</version>  </dependency>        <dependency>            <groupId>mysql</groupId>  <artifactId>mysql-connector-java</artifactId>  <version>5.1.47</version>  </dependency>        <!--Hadoop-->  <dependency>  <groupId>org.apache.hadoop</groupId>  <artifactId>hadoop-client</artifactId>  <version>${hadoop.version}</version>  </dependency>  <!--  https://mvnrepository.com/artifact/com.google.code.gson/gson  <dependency>             <groupId>com.google.code.gson</groupId>             <artifactId>gson</artifactId>             <version>2.8.0</version>         </dependency>  &lt;!&ndash; https://mvnrepository.com/artifact/org.apache.kafka/kafka &ndash;&gt;         <dependency>             <groupId>org.apache.kafka</groupId>             <artifactId>kafka_2.11</artifactId>             <version>1.0.0</version>         </dependency>-->  <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-mllib -->        <dependency>  <groupId>org.apache.spark</groupId>  <artifactId>spark-mllib_2.11</artifactId>  <version>${spark.version}</version>  </dependency>    </dependencies>  <build>        <sourceDirectory>src/main/scala</sourceDirectory>  <testSourceDirectory>src/test/scala</testSourceDirectory>  <plugins>            <plugin>                <groupId>net.alchim31.maven</groupId>  <artifactId>scala-maven-plugin</artifactId>  <version>3.2.2</version>  <executions>                    <execution>                        <goals>                            <goal>compile</goal>  <goal>testCompile</goal>  </goals>                        <configuration>                            <args>                                <arg>-dependencyfile</arg>  <arg>${project.build.directory}/.scala_dependencies</arg>  </args>                        </configuration>                    </execution>                </executions>            </plugin>  <plugin>                <groupId>org.apache.maven.plugins</groupId>  <artifactId>maven-shade-plugin</artifactId>  <version>2.4.3</version>  <executions>                    <execution>                        <phase>package</phase>  <goals>                            <goal>shade</goal>  </goals>                        <configuration>                            <filters>                                <filter>                                    <artifact>*:*</artifact>  <excludes>                                        <exclude>META-INF/*.SF</exclude>  <exclude>META-INF/*.DSA</exclude>  <exclude>META-INF/*.RSA</exclude>  </excludes>                                </filter>                            </filters>                            <transformers>                                <transformer implementation="org.apache.maven.plugins.shade.resource.ManifestResourceTransformer">  </transformer>                            </transformers>                        </configuration>                    </execution>                </executions>            </plugin>        </plugins>    </build></project>

idea关联scala与spark开发(全)相关推荐

  1. Scala+Hadoop+Spark开发

    去实习,发现工业界用的大多用这种大数据处理方式. 一些自己的理解: Spark是基于内存计算的大数据分布式计算框架,提高了数据处理的实时性,同时保证了高容错性和高可伸缩性. Hadoop是一种分布式系 ...

  2. 基于IntelliJ Idea的Scala开发demo一Spark开发demo

    顺着之前SBT的HelloWorld案例(具体请参考我的另外一篇博文<基于IntelliJ Idea的Scala开发demo-SBT包管理demo>) 今天给出一个基于Scala的spar ...

  3. 在Windows10 上超详细搭建spark 开发环境

    http://note.youdao.com/noteshare?id=3287f13ad5168e6d641fa260518dbeed&sub=1F84992EF3584CF9A821D49 ...

  4. Intellij IDEA使用Maven搭建spark开发环境(scala)

    如何一步一步地在Intellij IDEA使用Maven搭建spark开发环境,并基于scala编写简单的spark中wordcount实例. 1.准备工作  首先需要在你电脑上安装jdk和scala ...

  5. Spark开发性能调优

    Spark开发性能调优 标签(空格分隔): Spark –Write By Vin 1. 分配资源调优 Spark性能调优的王道就是分配资源,即增加和分配更多的资源对性能速度的提升是显而易见的,基本上 ...

  6. spark开发及调优

    一.spark开发调优 1.避免重复RDD 原则一:避免创建重复的RDD 对同一份数据,只应该创建一个RDD,不能创建多个RDD来代表同一份数据 极大浪费内存 2.尽可能复用RDD 原则二:尽可能复用 ...

  7. IDEA2022 配置spark开发环境

    本人强烈建议在 linux环境下 学习 spark!!! Introduction Apache Spark是一个快速且通用的分布式计算引擎,可以在大规模数据集上进行高效的数据处理,包括数据转换.数据 ...

  8. 大规模数据处理Apache Spark开发

    大规模数据处理Apache Spark开发 Spark是用于大规模数据处理的统一分析引擎.它提供了Scala.Java.Python和R的高级api,以及一个支持用于数据分析的通用计算图的优化引擎.它 ...

  9. Windows环境下在IDEA编辑器中spark开发安装步骤

    以下是windows环境下安装spark的过程: 1.安装JDK(version:1.8.0.152) 2.安装scala(version:2.11/2.12) 3.安装spark(version:s ...

最新文章

  1. 报错You may use special comments to disable some warnings.vue-cli脚手架关闭eslint的步骤
  2. NET(C#)连接各类数据库-集锦
  3. css设置title字体_CSS中简写属性要注意TRouBLe的顺序,避免踩坑
  4. 十个书写Node.js REST API的最佳实践(上)
  5. 认证(登录)功能需求分析
  6. 如何更改ubuntu的用户密码
  7. undefinednbsp;referencenbsp;to…
  8. WPF TreeView 绑定(demo 转)
  9. Shrink space合并表的碎片
  10. 羽枭android,【答疑】Unreal Engine 4 是怎样发布android的? - 视频教程线上学
  11. Android 自定义ListView控件,滑动删除
  12. this.$router.push相关的vue-router的导航方法
  13. 专访黑石集团CEO苏世民:“我们能见他人所不能见”/巴伦独家
  14. JavaScript学习手册十一:JSON
  15. 浙江省计算机二级办公软件高级应用技术,浙江省计算机二级办公软件高级应用技术考试大纲.doc...
  16. PostgreSQL 逻辑复制插件 UDR,可以愉快的玩类似MySQL的binlog复制了。
  17. 星巴克的员工激励机制
  18. 跨平台移动开发平台Flutter环境搭建
  19. 谈谈基因的黑科技 - 抛砖引玉篇
  20. 天河CAD2012打开服务器文件,AutoCAD无法启动,或启动中途闪退

热门文章

  1. 盘点我用过的导出Excel的方法
  2. 2020牛客寒假算法基础集训营4(A:欧几里得)(规律题)
  3. python 写文本文件出现乱码
  4. Angular7入门辅助教程(一)——Angular模块
  5. 海量数据的存储和访问解决方案
  6. 【10. 信号量和管程】
  7. VS2010:error C3083: 'Windows': the symbol to the left of a '::' must be a type
  8. matlab高程数据点,matlab 对tif数据高程图的处理分析
  9. OpenCV图像处理知识点梳理
  10. S7-200SMART案例分析——运动控制编程(三)