Spark 数据帧执行

Posted

技术标签:

【中文标题】Spark 数据帧执行【英文标题】:Spark data frame execution 【发布时间】:2017-03-26 07:56:59 【问题描述】:

我想了解 spark 数据帧的执行。我已经浏览了日志并解释了计划,但我不清楚。我的问题是说我有 spark 程序,并且我有一些如下所示的数据框系列

df1 = gets some data
df2 = gets some other data
df3 = df1.join(df2....)
df4= df3.join(some other data set)
df5 = df3.join(some other data set)
d6 = d4.join(some other data set)
d7 = d5.join(some other data set)
d6.write...()
d7.write...()

让我们说上面是一系列数据框。所以我的问题是,当 d6.write 发出时,df1,df2,df3,df4 会被执行吗?当 d7.write 发出时,df1,df2,df3,d5 会再次被执行吗?持久化 d3 数据帧是个好主意吗?

【问题讨论】:

【参考方案1】:

当 d6.write 发出时,df1,df2,df3,df4 会被执行吗?当 d7.write 发出时,df1,df2,df3,d5 会再次被执行吗?

回答:是的

持久化 d3 数据帧是个好主意吗?

回答:是的

【讨论】:

以上是关于Spark 数据帧执行的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 spark-scala 在 spark 数据帧上执行枢轴?

spark - 在大型数据帧上执行 groupby 和聚合时,java 堆内存不足

Tableau + Spark SQL 连接器 + Java Spark 数据帧

从缓存中删除 spark 数据帧

如何使用 Spark 数据帧将 csv 数据加载到配置单元中?

使用另一个 RDD/df 在 Spark RDD 或数据帧中执行查找/翻译