Spark基础知识汇总

Posted 创业者-春跃-增长黑客

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark基础知识汇总相关的知识,希望对你有一定的参考价值。

2,wordcount:

val wordcount = sc.textFile("/user/s-44/wordcount.txt").flatMap(_.split(\' \')).map((_, 1)).reduceByKey(_ + _).sortByKey().collect

val wordcount = sc.textFile("/user/s-44/wordcount.txt").flatMap(_.split(\' \')).map((_, 1)).reduceByKey(_ + _).sortByKey().saveAsTextFile("/user/s-44/result.txt")

下面这个是按value排序

val wordcount = sc.textFile("/user/s-44/wordcount.txt").flatMap(_.split(\' \')).map((_, 1)).reduceByKey(_ + _).map(_.swap).sortByKey().collect

val wordcount = sc.textFile("/user/s-44/wordcount.txt").flatMap(_.split(\' \')).map((_, 1)).reduceByKey(_ + _).map(_.swap).sortByKey().saveAsTextFile("/user/s-44/result.txt")
View Code

 

 

1,集合变成rdd

val rdd = sc.parallelize(List(1, 2, 3, 4, 5))
View Code

 

以上是关于Spark基础知识汇总的主要内容,如果未能解决你的问题,请参考以下文章

在这个 spark 代码片段中 ordering.by 是啥意思?

python+spark程序代码片段

大数据组件Spark原创文章汇总

spark关于join后有重复列的问题(org.apache.spark.sql.AnalysisException: Reference '*' is ambiguous)(代码片段

Spark基础编程学习03

Spark Rdd DataFrame操作汇总