从目录读取镶木地板文件时,pyspark不保存

Posted

技术标签:

【中文标题】从目录读取镶木地板文件时,pyspark不保存【英文标题】:pyspark not saving when reading parquet files from directory 【发布时间】:2021-10-11 11:35:26 【问题描述】:

我正在尝试将大量 parquet 文件从一个目录加载到 pyspark,然后将它们保存到另一个目录。

我的代码如下:

df = spark.read.parquet('input_folder') \
  .write \
  .parquet('output_folder')

我收到大量错误列表,从:

发生异常:Py4JJavaError 调用时发生错误 o30.parquet.

当我尝试使用一个文件时 - 一切都很好:

df = spark.read.parquet('input_folder/file1.parquet') \
  .write \
  .parquet('output_folder')

计数记录工作正常:

df = spark.read.parquet('input_folder') \
  .count()

可能是什么原因?

【问题讨论】:

【参考方案1】:

原因是第一个 parquet 文件是空的。希望它可以帮助某人。

【讨论】:

以上是关于从目录读取镶木地板文件时,pyspark不保存的主要内容,如果未能解决你的问题,请参考以下文章

使用 pyspark 从 s3 位置读取镶木地板文件的文件夹到 pyspark 数据帧

如何在读取前根据定义的模式读取 pyspark 中的镶木地板文件?

在 PySpark 中写入镶木地板的问题

无法将数据框保存到镶木地板 pyspark

我对镶木地板文件和 python 完全陌生,谁能告诉我如何在 pyspark 中读取带有标题的镶木地板文件

Pyspark:从不同的目录加载类似的镶木地板,并将文件夹名称作为一列组合成一个 DataFrame [重复]