spark案例——wordcount

Posted Z-hhhhh

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了spark案例——wordcount相关的知识,希望对你有一定的参考价值。

local本地模式

添加pom依赖

<properties>
    <scala.version>2.12.0</scala.version>
  </properties>

<dependencies>
    <dependency>
      <groupId>org.scala-lang</groupId>
      <artifactId>scala-library</artifactId>
      <version>$scala.version</version>
    </dependency>
    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-core_2.12</artifactId>
      <version>3.0.0</version>
    </dependency>
  </dependencies>

自行准备一个文件word.txt

//创建spark运行配置对象
    val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("WordCount")

    //创建spark上下文对象(连接对象)
    val sc: SparkContext = new SparkContext(sparkConf)

    //读取文件
    val file: RDD[String] = sc.textFile("src/main/inputfile/word.txt")
	//如果文件在hdfs上
	// val file: RDD[String] = sc.textFile("hdfs://ip地址:9820/study/sparktest/word.txt")

    //计算
    file.flatMap(_.split(" "))
      .map((_,1))
      .reduceByKey(_+_)
      .collect()
      .foreach(println)

    sc.stop()

如果想要保存结果

 sc.textFile("src/main/inputfile/word.txt")
      .flatMap(_.split(" "))
      .map((_, 1))
      .reduceByKey(_ + _)
      .repartition(1)
        .saveAsTextFile("地址")

以上是关于spark案例——wordcount的主要内容,如果未能解决你的问题,请参考以下文章

大数据技术之WordCount案例

Hadoop本地运行模式之Grep案例WordCount案例

03WordCount案例

03WordCount案例

MapReduce的WordCount案例

spark wordcount案例