从目录读取镶木地板文件时,pyspark不保存
Posted
技术标签:
【中文标题】从目录读取镶木地板文件时,pyspark不保存【英文标题】:pyspark not saving when reading parquet files from directory 【发布时间】:2021-10-11 11:35:26 【问题描述】:我正在尝试将大量 parquet 文件从一个目录加载到 pyspark,然后将它们保存到另一个目录。
我的代码如下:
df = spark.read.parquet('input_folder') \
.write \
.parquet('output_folder')
我收到大量错误列表,从:
发生异常:Py4JJavaError 调用时发生错误 o30.parquet.
当我尝试使用一个文件时 - 一切都很好:
df = spark.read.parquet('input_folder/file1.parquet') \
.write \
.parquet('output_folder')
计数记录工作正常:
df = spark.read.parquet('input_folder') \
.count()
可能是什么原因?
【问题讨论】:
【参考方案1】:原因是第一个 parquet 文件是空的。希望它可以帮助某人。
【讨论】:
以上是关于从目录读取镶木地板文件时,pyspark不保存的主要内容,如果未能解决你的问题,请参考以下文章
使用 pyspark 从 s3 位置读取镶木地板文件的文件夹到 pyspark 数据帧
如何在读取前根据定义的模式读取 pyspark 中的镶木地板文件?