Spark基于scala api

Posted Jacky-yc

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark基于scala api相关的知识,希望对你有一定的参考价值。

使用spark 对以下内容进行词频统计  (使用Scala语言)

hello world
hello java
hello scala
hello spark

  代码如下:

/**
  * Spark基于 scala api 的词频统计
  */
object WordCount {

  def main(args: Array[String]): Unit = {
    // 初始化 SparkConf  setMaster:设置运行模式 setAppName: 设置应用名称
    val conf = new SparkConf().setMaster("local").setAppName("wordcount")
    // 初始化 SparkContext 对象
    val sc = new SparkContext(conf)
    // 使用SparkContext对象读取文件
    val initRdd = sc.textFile("G:\test\wc\a.txt")
    // 使用flatMap算子对原始数据进行拆分
    val flatmapRdd = initRdd.flatMap(x=>x.split(" "))
    // 使用 map算子 转换每个单词 形如 (word,1)
    val mapRdd = flatmapRdd.map(x=>(x,1))
    // 使用 reudecByKey 统计每个单词的出现的次数
    val reduceRdd = mapRdd.reduceByKey(_+_)
    // 输出每个单词和出现次数
    reduceRdd.foreach(x=>println(x))
  }
}

 

以上是关于Spark基于scala api的主要内容,如果未能解决你的问题,请参考以下文章

通过python扩展spark mllib 算法包(e.g.基于spark使用孤立森林进行异常检测)

基于spark mllib的LDA模型训练Scala代码实现

spark哪个版本支持scala2.11

Spark-Scala:使用异常处理将固定宽度线解析为 Dataframe Api

Spark RDD API(scala)

Spark垃圾邮件分类(scala+java)