在 Spark 中加入数据集
Posted
技术标签:
【中文标题】在 Spark 中加入数据集【英文标题】:Joining data sets in Spark 【发布时间】:2015-12-23 06:13:55 【问题描述】:在 Spark 中加入数据有哪些不同的方法?
Hadoop map reduce 提供 - 分布式缓存、map side join 和 reduce side join。 Spark 呢?
如果您可以提供简单的 scala 和 python 代码来连接 Spark 中的数据集,那将是非常棒的。
【问题讨论】:
How do you perform basic joins of two RDD tables in Spark using Python? 【参考方案1】:Spark 有两个基本的分布式数据对象。数据框和 RDD。
RDD 的一种特殊情况,在这种情况下两者都是对,可以在它们的键上连接。这可以使用PairRDDFunctions.join()
获得。见:https://spark.apache.org/docs/1.5.2/api/scala/index.html#org.apache.spark.rdd.PairRDDFunctions
Dataframes 也允许类似 SQL 的连接。见:http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.DataFrame
【讨论】:
以上是关于在 Spark 中加入数据集的主要内容,如果未能解决你的问题,请参考以下文章
使用用户定义的函数在 spark 中加入数据集时需要填充其他信息
hadoop2.0中加入全新的集群资源管理器,下面哪个不是yarn中的组件
Spark 数据集 Joinwith 错误:连接条件丢失或不重要