在 Spark 中加入数据集

Posted 2023-04-15

技术标签:

【中文标题】在 Spark 中加入数据集【英文标题】：Joining data sets in Spark 【发布时间】：2015-12-23 06:13:55 【问题描述】：

在 Spark 中加入数据有哪些不同的方法？

Hadoop map reduce 提供 - 分布式缓存、map side join 和 reduce side join。 Spark 呢？

如果您可以提供简单的 scala 和 python 代码来连接 Spark 中的数据集，那将是非常棒的。

【问题讨论】：

How do you perform basic joins of two RDD tables in Spark using Python? 【参考方案1】：

Spark 有两个基本的分布式数据对象。数据框和 RDD。

RDD 的一种特殊情况，在这种情况下两者都是对，可以在它们的键上连接。这可以使用PairRDDFunctions.join() 获得。见：https://spark.apache.org/docs/1.5.2/api/scala/index.html#org.apache.spark.rdd.PairRDDFunctions

Dataframes 也允许类似 SQL 的连接。见：http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.DataFrame

【讨论】：

以上是关于在 Spark 中加入数据集的主要内容，如果未能解决你的问题，请参考以下文章

使用用户定义的函数在 spark 中加入数据集时需要填充其他信息

在 Spark Java API 中加入行数据集

hadoop2.0中加入全新的集群资源管理器，下面哪个不是yarn中的组件

Spark 数据集 Joinwith 错误：连接条件丢失或不重要

在 Pandas 中加入一个数据集和 OneHotEncoder 的结果

在 R 中加入唯一 ID 有拼写错误的数据集