在 Spark 中加入数据集

Posted

技术标签:

【中文标题】在 Spark 中加入数据集【英文标题】:Joining data sets in Spark 【发布时间】:2015-12-23 06:13:55 【问题描述】:

在 Spark 中加入数据有哪些不同的方法?

Hadoop map reduce 提供 - 分布式缓存、map side join 和 reduce side join。 Spark 呢?

如果您可以提供简单的 scala 和 python 代码来连接 Spark 中的数据集,那将是非常棒的。

【问题讨论】:

How do you perform basic joins of two RDD tables in Spark using Python? 【参考方案1】:

Spark 有两个基本的分布式数据对象。数据框和 RDD。

RDD 的一种特殊情况,在这种情况下两者都是对,可以在它们的键上连接。这可以使用PairRDDFunctions.join() 获得。见:https://spark.apache.org/docs/1.5.2/api/scala/index.html#org.apache.spark.rdd.PairRDDFunctions

Dataframes 也允许类似 SQL 的连接。见:http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.DataFrame

【讨论】:

以上是关于在 Spark 中加入数据集的主要内容,如果未能解决你的问题,请参考以下文章

使用用户定义的函数在 spark 中加入数据集时需要填充其他信息

在 Spark Java API 中加入行数据集

hadoop2.0中加入全新的集群资源管理器,下面哪个不是yarn中的组件

Spark 数据集 Joinwith 错误:连接条件丢失或不重要

在 Pandas 中加入一个数据集和 OneHotEncoder 的结果

在 R 中加入唯一 ID 有拼写错误的数据集