Spark 数据帧执行
Posted
技术标签:
【中文标题】Spark 数据帧执行【英文标题】:Spark data frame execution 【发布时间】:2017-03-26 07:56:59 【问题描述】:我想了解 spark 数据帧的执行。我已经浏览了日志并解释了计划,但我不清楚。我的问题是说我有 spark 程序,并且我有一些如下所示的数据框系列
df1 = gets some data
df2 = gets some other data
df3 = df1.join(df2....)
df4= df3.join(some other data set)
df5 = df3.join(some other data set)
d6 = d4.join(some other data set)
d7 = d5.join(some other data set)
d6.write...()
d7.write...()
让我们说上面是一系列数据框。所以我的问题是,当 d6.write 发出时,df1,df2,df3,df4 会被执行吗?当 d7.write 发出时,df1,df2,df3,d5 会再次被执行吗?持久化 d3 数据帧是个好主意吗?
【问题讨论】:
【参考方案1】:当 d6.write 发出时,df1,df2,df3,df4 会被执行吗?当 d7.write 发出时,df1,df2,df3,d5 会再次被执行吗?
回答:是的
持久化 d3 数据帧是个好主意吗?
回答:是的
【讨论】:
以上是关于Spark 数据帧执行的主要内容,如果未能解决你的问题,请参考以下文章
如何使用 spark-scala 在 spark 数据帧上执行枢轴?
spark - 在大型数据帧上执行 groupby 和聚合时,java 堆内存不足
Tableau + Spark SQL 连接器 + Java Spark 数据帧