Spark基础知识汇总
Posted 创业者-春跃-增长黑客
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark基础知识汇总相关的知识,希望对你有一定的参考价值。
2,wordcount:
val wordcount = sc.textFile("/user/s-44/wordcount.txt").flatMap(_.split(\' \')).map((_, 1)).reduceByKey(_ + _).sortByKey().collect val wordcount = sc.textFile("/user/s-44/wordcount.txt").flatMap(_.split(\' \')).map((_, 1)).reduceByKey(_ + _).sortByKey().saveAsTextFile("/user/s-44/result.txt") 下面这个是按value排序 val wordcount = sc.textFile("/user/s-44/wordcount.txt").flatMap(_.split(\' \')).map((_, 1)).reduceByKey(_ + _).map(_.swap).sortByKey().collect val wordcount = sc.textFile("/user/s-44/wordcount.txt").flatMap(_.split(\' \')).map((_, 1)).reduceByKey(_ + _).map(_.swap).sortByKey().saveAsTextFile("/user/s-44/result.txt")
1,集合变成rdd
val rdd = sc.parallelize(List(1, 2, 3, 4, 5))
以上是关于Spark基础知识汇总的主要内容,如果未能解决你的问题,请参考以下文章
在这个 spark 代码片段中 ordering.by 是啥意思?
spark关于join后有重复列的问题(org.apache.spark.sql.AnalysisException: Reference '*' is ambiguous)(代码片段