如何：Pyspark 数据帧持久使用和回读

Posted 2023-04-13

技术标签:

【中文标题】如何：Pyspark 数据帧持久使用和回读【英文标题】：How to: Pyspark dataframe persist usage and reading-back 【发布时间】：2019-10-15 14:06:50 【问题描述】：

我对 pyspark 很陌生，我遇到以下错误：Py4JJavaError: An error occurred while calling o517.showString. 我读到这是由于内存不足：Caused by: java.lang.OutOfMemoryError: GC overhead limit exceeded 所以，我一直在读到这种情况的转机是使用df.persist()，然后再次阅读 persisted df，所以我想知道：

给定一个for 循环，我在其中执行一些.join 操作，我应该在循环内部还是在循环末尾使用.persist()？例如

for col in columns:
   df_AA = df_AA.join(df_B, df_AA[col] == 'some_value', 'outer').persist()

--> or <--

for col in columns:
   df_AA = df_AA.join(df_B, df_AA[col] == 'some_value', 'outer')
df_AA.persist()

完成后，我应该如何回读？ df_AA.unpersist()? sqlContext.read.some_thing(df_AA)?

我对此真的很陌生，所以请尽量解释清楚。我正在使用 jupyter-notebooks(anaconda) 的本地机器（8GB 内存）上运行； Windows 7的;爪哇 8;蟒蛇3.7.1； pyspark v2.4.3

【问题讨论】：

【参考方案1】：

Spark 是惰性评估框架，因此，在您调用 action 之前，不会调用任何转换，例如：join。

所以继续你所做的事情

from pyspark import StorageLevel
    for col in columns:
       df_AA = df_AA.join(df_B, df_AA[col] == 'some_value', 'outer')
    df_AA.persist(StorageLevel.MEMORY_AND_DISK)
    df_AA.show()

有多个持久化选项可用，因此选择 MEMORY_AND_DISK 会将内存中无法处理的数据溢出到 DISK。

GC 错误也可能是由于为 Spark 应用程序运行提供的 DRIVER 内存较少。

【讨论】：

谢谢乔比，那么回读呢，我该如何管理呢？我应该使用函数吗？还是只是在某些操作中再次使用数据框名称？即 df_AA.select('some_col')...etc 等 @Mike 回读意味着您想从数据框中选择一些特定的列，如果是，那么您在评论中提到的内容是正确的df.select(<columns_list comma separated>) 例如：df.select('col1', 'col2') 要查看数据框中的数据，您必须使用df.show() 默认它只显示20行。

以上是关于如何：Pyspark 数据帧持久使用和回读的主要内容，如果未能解决你的问题，请参考以下文章