spark常用转换操作:join
Posted zzhangyuhang
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了spark常用转换操作:join相关的知识,希望对你有一定的参考价值。
join就表示内连接。
对于内链接,对于给定的两个输入数据集(k,v1)和(k,v2)
根据相同的k进行连接,最终得到(k,(v1,v2))的数据集。
示例
val arr1 = Array(("spark",1),("spark",2),("hadoop",2),("hadoop",5)) val pairRdd1 = sc.parallelize(arr1) val arr2 = Array(("spark","fast")) val pairRdd2 = sc.parallelize(arr2) pairRdd1.join(pairRdd2).collect.foreach(println)
结果
(spark,(1,fast)) (spark,(2,fast))
注意,join是内连接,连接的结果只有两个数据集相同做了连接的部分,没进行连接的部分全部pass掉了。
以上是关于spark常用转换操作:join的主要内容,如果未能解决你的问题,请参考以下文章
Spark RDD常用算子操作 键值对关联操作 subtractByKey, join,fullOuterJoin, rightOuterJoin, leftOuterJoin
Spark:加入待转换的数据集时,“SparkException:Task not serializable”
spark常用转换操作:keys values和mapValues