spark常用转换操作:join

Posted zzhangyuhang

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了spark常用转换操作:join相关的知识,希望对你有一定的参考价值。

join就表示内连接

对于内链接,对于给定的两个输入数据集(k,v1)和(k,v2)

根据相同的k进行连接,最终得到(k,(v1,v2))的数据集。

示例

val arr1 = Array(("spark",1),("spark",2),("hadoop",2),("hadoop",5))
val pairRdd1 = sc.parallelize(arr1)
val arr2 = Array(("spark","fast"))
val pairRdd2 = sc.parallelize(arr2)
pairRdd1.join(pairRdd2).collect.foreach(println)

结果

(spark,(1,fast))
(spark,(2,fast))

注意,join是内连接,连接的结果只有两个数据集相同做了连接的部分,没进行连接的部分全部pass掉了。

以上是关于spark常用转换操作:join的主要内容,如果未能解决你的问题,请参考以下文章

Spark RDD常用算子操作 键值对关联操作 subtractByKey, join,fullOuterJoin, rightOuterJoin, leftOuterJoin

Spark:加入待转换的数据集时,“SparkException:Task not serializable”

Spark SQL join的三种实现方式

spark常用转换操作:keys values和mapValues

spark中常用转换操作keys values和mapValues

Spark算子介绍