idea---编写第一个Spark程序

Posted Shall潇

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了idea---编写第一个Spark程序相关的知识,希望对你有一定的参考价值。


创建maven工程

添加依赖

自己根据自己安装的scala和spark版本进行选择

	<dependency>
      <groupId>org.scala-lang</groupId>
      <artifactId>scala-library</artifactId>
      <version>2.11.12</version>
    </dependency>
    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-core_2.11</artifactId>
      <version>2.1.1</version>
    </dependency>
    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-sql_2.11</artifactId>
      <version>2.1.1</version>
    </dependency>

添加Scala的SDK

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

设置根文件夹

在main文件夹下创建一个directory
在这里插入图片描述
将其设置为Sources文件夹
在这里插入图片描述
注意文件夹的颜色
在这里插入图片描述
在这个文件夹下创建一个Object

编写Spark程序

def main(args: Array[String]): Unit = {
  val conf = new SparkConf().setMaster("local[*]").setAppName("sparkDemo")
  val sc = SparkContext.getOrCreate(conf)
  println(sc)
  var spark:SparkSession =   SparkSession.builder().master("local[*]").appName("sparksession").getOrCreate()
  println(spark)

    //sc读取HDFS上的文件
    val wcfile = sc.textFile("hdfs://192.168.XXX.100:9000/sparkfile/hello.txt")
    wcfile.collect.foreach(println)
    //sc读取本地文件
    sc.textFile("file:///opt/soft/hello.txt")

    //通过内存创建RDD
//    val rdd:RDD[Int] = sc.parallelize(1 to 10,3)
//        rdd.collect()foreach(println)

    // wordcount
//    var wcrdd = sc.parallelize(Array("hello java","hello scala","hello python","java is good"))
//        wcrdd.flatMap(_.split(" ")).map(x=>(x,1)).reduceByKey(_+_).collect()foreach(println)
}

以上是关于idea---编写第一个Spark程序的主要内容,如果未能解决你的问题,请参考以下文章

intellij idea 怎么编写python程序打包发送到spark

IDEA配置Scala编写Spark程序

spark学习进度5-利用开发工具IntelliJ IDEA编写Spark应用程序(Scala+Maven)

python+spark程序代码片段

Spark小实例——求文件中的最大值和最小值(IDEA实现)

3天掌握Spark-- IDEA 应用开发Spark